CN112198794A - 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法 - Google Patents

一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法 Download PDF

Info

Publication number
CN112198794A
CN112198794A CN202010986168.XA CN202010986168A CN112198794A CN 112198794 A CN112198794 A CN 112198794A CN 202010986168 A CN202010986168 A CN 202010986168A CN 112198794 A CN112198794 A CN 112198794A
Authority
CN
China
Prior art keywords
human
driving
strategy
unmanned
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010986168.XA
Other languages
English (en)
Inventor
翟元盛
吕迪
赵文凯
苏晗
孙亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202010986168.XA priority Critical patent/CN112198794A/zh
Publication of CN112198794A publication Critical patent/CN112198794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles

Abstract

本发明公开了一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法,包括:使用基于规则而非基于样本的方式进行类人驾驶行为建模,并基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索。本发明所改进的无人驾驶策略能够输出连续的类人驾驶行为,具备更优秀的控制效果,并能解决传统模仿学习依赖样本的问题。

Description

一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾 驶方法
技术领域
本发明涉及车辆的无人驾驶技术领域,更具体地,涉及一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法。
背景技术
从上世纪70年代开始,美国、英国等国率先开展了自动驾驶汽车的研究。进入21世纪之后,随着计算能力加强、传感器精度提升、机器学习与模式识别算法的突破,自动驾驶汽车取得突破的条件逐渐成熟。2004 年,美国国防高级研究计划局(Defense AdvancedResearch Projects Agency,DARPA)开始举办一系列自动驾驶比赛,自动驾驶汽车的研究得到空前关注。2009年,Google开始其无人车研究计划,于2012年获得美国首个自动驾驶汽车路测许可证,引爆自动驾驶热潮。随后,Tesla、Uber、百度、美团、滴滴等公司相继宣布自己的自动驾驶计划;2016年至今,随着人工智能技术取得较大进展,在资本的助推下,中美两国也诞生了大量的自动驾驶初创公司;传统汽车产业的整车企业(如吉利、通用、丰田、上汽等)和Tire1(如Bosch、Aptiv等)也在加速推动自动驾驶技术的进步和产业化。
无人驾驶是未来车辆发展的必然趋势,也是人工智能所面临的诸多任务中的一个极具挑战的场景。理想无人驾驶策略的输出应该由一系列符合类人逻辑的连续有序行为组成。然而,现有的无人驾驶策略过于依赖感知- 控制映射过程的“正确性”,在一定程度上忽视了人类驾驶汽车时所普遍遵循的驾驶逻辑,这一问题使得无人驾驶策略会输出大量非类人化的危险行为,可能会导致灾难性的后果。
针对“无人驾驶策略缺乏类人逻辑”的问题,当前技术的解决方案有:
1、放弃基于强化学习的端到端方式,使用人为建立的基于规则的控制方式进行控制。
例如,将车辆行为进行细分,建立具有13个状态的有限状态机组成决策系统,其状态分别为:初始状态、前向驾驶、车道跟随、避障、停止标志前等待、路口处理、等待路口空闲、U-Turn、车辆在U-Turn前停止、越过黄线行驶、在停车区域内行驶、通过交通阻塞路段、在不匹配RNDF路网文件的情况下在路上行驶、任务结束。这种方式更侧重于实现功能,而不是实现高驾驶性能,而由于无人驾驶汽车数据来源的不确定性与先验环境建模的局限性,使得这种依赖精准的环境判断的方案无法拥有足以应对真实路面环境的决策鲁棒性与泛化性。
2、模仿学习,模仿学习是目前针对“无人驾驶策略缺乏类人逻辑”这一问题使用最普遍的解决方案,其属于基于数据/学习的建模方法,其基本思路是通过收集大量人类专家的样本来逼近某一场景下的最优解,然后以此为基准训练智能体的控制策略,使策略具备类人逻辑。但是其仍存在如下问题:
数据难收集、难筛选,且很难收集到多到足够消除误差的数据量:
以人类动作为基准的训练会限制网络对环境与策略的自由探索,易导致局部极值;
复合误差(compounding errors)的存在,会使得训练好的策略模型执行的轨迹和训练轨迹的误差会随时间的增加而越变越大。
只是根据人类提供的状态动作对进行的行为克隆(Behavior Cloning) 来习得驾驶策略,仍未关注类人驾驶行为所形成的动作序列中的内在逻辑。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法,能够输出连续的类人驾驶行为,具备更优秀的控制效果,并能解决传统模仿学习依赖样本的问题。
与现有技术相比,本发明的优点在于,使用基于规则而非基于样本的方式进行类人驾驶行为建模,解决了传统模仿学习中对类人驾驶行文的建模依赖样本的问题;基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索,使无人驾驶策略能够输出连续的类人驾驶行为,而并非仅改善在某些决策时间上输出的离散概率;在确保策略输出类人行为与不依赖样本的基础上,保留了端到端控制方式的鲁棒性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是本发明提出的基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法的运行流程示意图;
图2是现有技术中“感知-控制”映射过程的示意图;
图3是根据本发明一个实施例的“感知+类人逻辑-控制”的过程示意图;
图4是根据本发明一个实施例的进行巡航任务的效果对比图;
图5是根据本发明一个实施例的训练中收敛情况对比图;
图6是根据本发明一个实施例的控制效果对比图;
附图中,imitation learning-模仿学习算法;Comparative Result- 比较结果;steer variance-转向方差;steer stdev-转向标准差;Step- 步长;Step Reward-步骤奖励,对应episode Reward-剧情奖励;Reward- 奖励;primeval-原始;Improve-改进;Carla-Carla仿真工具。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法,整体上包括信息输入、类人建模、策略更新、控制输出等功能。
类人建模是指使用基于先验知识,包括模型、数据、规则、学习等方式,将人类驾驶行为抽象为智能体的学习经验的方法。例如,类人建模包括的关键步骤有:
S1,基于先验知识,建立不同场景下融合类人逻辑的驾驶规则集 {τ12,…,τm},
S2,约束先验建立的类人驾驶规则关注智能体动作序列本身的合理性:
Figure BDA0002689284240000041
其中,<s1,s2,…sn>表示驾驶过程中智能体状态(State)的集合,<a1,a2,…an>表示驾驶过程中智能体动作(Action)的集合,{τ12,…,τm}代表不同场景下融合类人逻辑的驾驶规则,{λ12,…,λn}为连续动作序列 A=<a0,a1,…,an>中时序动作上的前后关联。
S3,将模仿学习方式将抽取出的「状态-动作对」的集合形式改进为:
Figure BDA0002689284240000042
其中,D表示抽取出的「状态-动作对」的集合。
策略更新是指基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索的过程,策略更新包括的关键步骤有:
S1,定义添加类人行为约束后的动作价值函数为:
Figure BDA0002689284240000043
其中,η表示折扣系数,取值范围为[0,1],π为策略,λt为约束规则, st表示当前时刻状态。
S2,定义状态-动作对的价值函数:
Figure BDA0002689284240000051
其中,at表示当前时刻动作。
S3,改进智能体的动作选取方式为:
Figure BDA0002689284240000052
Nt表示OU噪声。
S4,改进算法的动作网络更新方式为:
Figure BDA0002689284240000053
其中,θQ为评价网络(critic network)的权值,θμ为动作网络(Actor network)的权值,{λ12,…,λn}为连续动作序列A=<a0,a1,…,an>中时序动作上的前后关联,
Figure BDA0002689284240000054
是当前的无人驾驶策略梯度,
Figure BDA0002689284240000055
是在添加类人行为约束后,评价网络的Q值对于当前动作a的梯度。
S5,改进算法的评价网络更新方式为:
Figure BDA0002689284240000056
其中,yi=ri+ηQ'(si+1,μ'(si+1;θμ');θQ').
算法的整体实现流程为:
Figure BDA0002689284240000057
Figure BDA0002689284240000061
为了进一步理解本发明,以下具体说明现有技术中存在的问题以及本发明针对这些技术问题所作的改进。
对于端到端控制领域无人驾驶策略缺乏类人逻辑与社会智能这一问题的探索中,目前使用最普遍的方式是模仿学习,模仿学习属于基于数据/ 学习的建模方法,其基本思路是通过收集大量人类专家的样本来逼近某一场景下的最优解,然后以此为基准训练智能体的控制策略。其实现步骤为:
1、提供人类专家的决策数据(专家轨迹){γ12,…,γm},每个决策包含状态和动作序列
Figure BDA0002689284240000062
2、将所有「状态-动作对」抽取出来构造新的集合
Figure BDA0002689284240000063
3、以理想轨迹
Figure RE-GDA0002793946930000083
拟合出的理想集合
Figure RE-GDA0002793946930000084
为基准,训练策略πθ(at|st)。
这种方式虽然关注了驾驶策略的类人逻辑,但是存在如下问题:
1、数据难收集、难筛选,且很难收集到多到足够消除误差的数据量:
用γi(i=1,2,…,N)来简单表示专家轨迹,用
Figure BDA0002689284240000066
和γ*来分别表示实际轨迹和期望中的理想轨迹,已知存在
Figure BDA0002689284240000067
实际轨迹
Figure BDA0002689284240000068
由对采集的专家轨迹统计得出:
Figure BDA0002689284240000069
其中,Avg[·]表示平均,也表示统计意义上的期望,是一种典型的对专家轨迹数据的处理方式。此时,实际策略和期望策略的误差
Figure RE-GDA0002793946930000089
存在:
Avg[(γi*)2]∝1/N&Avg[(γi*)2]>0;
2、以人类动作为基准的训练会限制网络对环境与策略的自由探索,易导致局部极值;
3、复合误差(compounding errors)的存在,会使得训练好的策略模型执行的轨迹和训练轨迹的误差会随时间的增加而越变越大: E[errors]≤ε(T+(T-1)+(T-2)+...+1)∝εT2,ε代表在t时刻存在误差的概率。
4、只是根据人类提供的状态动作对进行的行为克隆(Behavior Cloning)来习得驾驶策略,仍未关注类人驾驶行为所形成的动作序列中的内在逻辑。
综上,目前应用于端到端控制领域的对类人驾驶行为的建模方式仍未关注类人驾驶行为所形成的动作序列中的内在逻辑,且要求样本量大,数据采集工作量大,难以获得理想的实际策略,且易造成策略陷入过拟合或局部极值。本研究的目的是,提出一种基于规则的类人驾驶行为建模方式,在不依赖样本集的基础上,实现类人驾驶。
为进一步验证本发明的效果,借助Carla仿真环境,在一条长约110 米的直道上分别进行了无人车的直线巡航实验与碰撞实验。
对于直线巡航实验,在无障碍的直线场景下的巡航任务是最能体现无人驾驶策略是否拥有类人逻辑的验证场景。本发明统计了直线巡航任务中改进前后两种算法控制过程中横向控制量的方差与标准差,并对比了两种算法完成任务所需的控制步数,如图4所示。由图4中的统计结果可以看出,本发明改进后的算法比原始算法展示出了更平顺的控制过程和更高的任务执行效率,这充分验证了本发明的改进对于策略输出的改进效果。
图5示出了本发明提出的算法在训练中的收敛情况,并和原始模仿学习算法的收敛情况进行了对比,其中图5(a)是原始算法在训练中的收敛情况,图5(b)是本发明改进后的算法在训练中的收敛情况。由图5可以看出,相比于改进前的原始算法,本发明改进后的算法明显展现出了更稳定的收敛过程,并在算法收敛后具有更稳定的策略表现。
为对本发明改进后算法的控制效果进行更精确的量化展示,分别使用原始算法和本发明改进后的算法进行了无人车巡航实验。本发明对两种算法的实验结果进行了统计,实验结果如图6所示。由图6可以看出,相比于原始模仿学习算法,本发明改进后的算法任务成功率提高了19%,任务执行效率提高了15.45%,并产生了更少的碰撞事故。
综上,本发明通过添加类人驾驶规则约束实现了更优秀的控制性能,并且改进的奖励塑造方式对稀疏的灾难性事件的建模更符合控制策略对目标函数的优化期望,比改进前提高了85.57%。本发明所提出的无人驾驶策略,相比传统算法,训练效率提高了21%,任务成功率提高了19%,任务执行效率提高了15.45%,并显著减少了碰撞事故。
综上所述,本发明所改进的无人驾驶策略能够输出连续的类人驾驶行为,具备更优秀的控制效果,并能解决传统模仿学习依赖样本的问题。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (5)

1.一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法,包括以下步骤:
使用基于规则而非基于样本的方式进行类人驾驶行为建模;
基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索。
2.根据权利要求1所述的方法,其中,在所述无人驾驶方法中,对类人驾驶行为的建模方式为:
Figure FDA0002689284230000011
其中,<s1,s2,…sn>表示驾驶过程中智能体状态(State)的集合,<a1,a2,…an>表示驾驶过程中智能体动作(Action)的集合,{τ12,…,τm}代表不同场景下融合类人逻辑的驾驶规则,{λ12,…,λn}为连续动作序列A=<a0,a1,…,an>中时序动作上的前后关联。
相应的,本发明改进的模仿学习方式将抽取出的「状态-动作对」的集合形式改进为:
Figure FDA0002689284230000012
其中,D表示抽取出的「状态-动作对」的集合。
3.根据权利要求1所述的方法,其中,在所述无人驾驶方法中,基于添加类人行为约束的深度确定性策略梯度算法的策略更新方式为:
Figure FDA0002689284230000013
其中,θQ为评价网络(critic network)的权值,θμ为动作网络(Actor network)的权值,{λ12,…,λn}为连续动作序列A=<a0,a1,…,an>中时序动作上的前后关联,
Figure FDA0002689284230000014
是当前的无人驾驶策略梯度,
Figure FDA0002689284230000015
是在添加类人行为约束后,评价网络的Q值对于当前动作a的梯度。
4.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1所述方法的步骤。
5.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述的方法的步骤。
CN202010986168.XA 2020-09-18 2020-09-18 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法 Pending CN112198794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010986168.XA CN112198794A (zh) 2020-09-18 2020-09-18 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010986168.XA CN112198794A (zh) 2020-09-18 2020-09-18 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法

Publications (1)

Publication Number Publication Date
CN112198794A true CN112198794A (zh) 2021-01-08

Family

ID=74015503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010986168.XA Pending CN112198794A (zh) 2020-09-18 2020-09-18 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法

Country Status (1)

Country Link
CN (1) CN112198794A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067062A (zh) * 2022-01-17 2022-02-18 深圳慧拓无限科技有限公司 一种真实驾驶场景仿真方法、系统、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕迪 等: "融合类人驾驶行为的无人驾驶深度强化学习方法", 《集成技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067062A (zh) * 2022-01-17 2022-02-18 深圳慧拓无限科技有限公司 一种真实驾驶场景仿真方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
You et al. Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning
Ohnishi et al. Barrier-certified adaptive reinforcement learning with applications to brushbot navigation
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
US11829275B2 (en) Systems and methods for automatic test generation
Ding et al. Epsilon: An efficient planning system for automated vehicles in highly interactive environments
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
Wang et al. A survey of learning‐based robot motion planning
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
Mehr et al. Maximum-entropy multi-agent dynamic games: Forward and inverse solutions
CN114358128A (zh) 一种训练端到端的自动驾驶策略的方法
Weng et al. Towards guaranteed safety assurance of automated driving systems with scenario sampling: An invariant set perspective
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
Kardell et al. Autonomous vehicle control via deep reinforcement learning
Chen et al. Data-driven computation of robust control invariant sets with concurrent model selection
Kamran et al. Minimizing safety interference for safe and comfortable automated driving with distributional reinforcement learning
CN112198794A (zh) 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法
Li et al. Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)
Zhou et al. Identify, estimate and bound the uncertainty of reinforcement learning for autonomous driving
Cai et al. Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection
CN111443701A (zh) 基于异构深度学习的无人驾驶车辆/机器人行为规划方法
Jatzkowski et al. A knowledge-based approach for the automatic construction of skill graphs for online monitoring
Batkovic Enabling Safe Autonomous Driving in Uncertain Environments
Du et al. Heuristic reinforcement learning based overtaking decision for an autonomous vehicle
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Wang et al. An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210108