CN113255054A - 一种基于异构融合特征的强化学习自动驾驶方法 - Google Patents

一种基于异构融合特征的强化学习自动驾驶方法 Download PDF

Info

Publication number
CN113255054A
CN113255054A CN202110273101.6A CN202110273101A CN113255054A CN 113255054 A CN113255054 A CN 113255054A CN 202110273101 A CN202110273101 A CN 202110273101A CN 113255054 A CN113255054 A CN 113255054A
Authority
CN
China
Prior art keywords
reinforcement learning
reward
value
learning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110273101.6A
Other languages
English (en)
Inventor
王燕清
石朝侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaozhuang University
Original Assignee
Nanjing Xiaozhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xiaozhuang University filed Critical Nanjing Xiaozhuang University
Priority to CN202110273101.6A priority Critical patent/CN113255054A/zh
Publication of CN113255054A publication Critical patent/CN113255054A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/28Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Fluid Mechanics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明针对传统强化学习方法在自动驾驶这种连续状态空间和动作空间的任务所需探索量庞大的问题,通过搭建基于异构融合特征的深度确定性策略梯度强化学习方法来完成自动驾驶任务,设计了先模仿后强化,异构融合精简状态的学习思路。在模仿学习阶段,利用从驾驶数据中将高维信息降维为低维特征,连同从仿真环境中获得的几个描述环境的关键参数构成车辆状态特征,采用分级整合连接的方式异构融合这些特征。在强化学习阶段,采用深度确定性策略梯度算法并为自动驾驶量身定制了奖励函数,有效地引导了学习过程。经验证,该系统设计可以有效习得驾驶技能,基于异构融合特征的设计可以有效加速训练进程,完成驾驶任务且具备针对动态物体的响应能力。

Description

一种基于异构融合特征的强化学习自动驾驶方法
技术领域
本发明涉及自动驾驶技术领域,具体为一种基于异构融合特征的强化学习自动驾驶方法。
背景技术
自动驾驶技术虽然已经经历了很长时间的研究,但在复杂城市环境下的自动驾驶技术仍存在未解决的问题。现阶段尚不存在一个理想的系统,能够完整解决所有自动驾驶的视觉感知任务(例如物体和车道定位,驾驶路径规划)并提供完备的驾驶策略。尽管已经存在一些通过对大规模数据集进行提炼抽象的方法,这些方法已经很好地研究了视觉感知任务,但是通过模块化方法人工设计规则实现的驾驶策略还远远不足以处理各种真实驾驶场景中的情况。仅仅依靠模仿人类驾驶员的驾驶数据得到的方法还不够完备,在复杂环境中的自动驾驶需要了解道路中其他动态物体的意图,了解交通规则,了解非结构化道路的信息,这样复杂的需求可以使用深度学习技术来完成驾驶策略。
已经存在一些基于端到端监督学习的研究方法,这些研究通过对大量人类驾驶数据的监督训练将传感器输入的信息直接映射为车辆控制指令,取得了一定的成果。然而,对于人类驾驶数据中没有涉及的场景和任务,这些方法表现得无能为力。此外,由于自动驾驶的车辆需要与其他车辆,行人等动态因素进行频繁交互,因此难以将监督学习方法作为自动驾驶的长期策略。
深度强化学习(Deep Reinforce Learning)作为一种以环境交互为主要学习手段的方法,有望另辟蹊径,探索出另一类驾驶策略。强化学习主要面临的问题是,连续状态空间和动作空间所需的探测量过于庞大,传统的强化学习效果不佳,难以令人满意地完成任务。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提出一种基于异构融合特征的强化学习自动驾驶方法,通过基于异构融合特征的强化学习方法来完成自动驾驶任务,该方法使用设置在车辆顶部正前方的照相机作为传感器,首先利用从人类驾驶数据中学到的知识来将高维图像信息降维为低维图像特征,从仿真环境中获得的几个描述环境的关键参数完善车辆状态信息,并采用分级整合连接的方式异构融合这些特征。然后,采用深度确定性策略梯度算法(DDPG)这种基于策略回放-演员-评论者架构的强化学习算法结合为自动驾驶量身定制的奖惩函数有效引导学习过程,完成了自动驾驶任务。
(二)技术方案
整个异构融合特征的强化学习系统的训练分为模仿学习、强化学习两个阶段,在模仿学习阶段中,本发明使用在仿真实验平台收集的优秀驾驶数据通过监督学习的形式对图像降维网络进行预训练,然后共享此网络的权值至强化学习阶段。这种方法可以高效的得到图像降维网络,降低输入状态的维度,加速整个学习的过程。在强化学习阶段,采用深度确定性策略梯度强化学习算法,让车辆在仿真环境中自主探索学习,以完善在各种复杂交通场景中的策略。
1 对图像降维处理网络
强化学习难以在高输入维度且动作空间连续的情况下有效学习,为了降低输入状态维度,使用模仿学习方法预先学习驾驶数据,训练图像降维网络F。
记给定N段驾驶记录序列vi,i属于(1,...,N),其中输入图像记为Ii,t,对应时刻t对车辆的控制分别记为方向盘控制量Si,t ,加减速控制量ai,t,通过降维网络F在驾驶数据的每一帧中,以模仿学习的方式最小化网络控制输出与对应真值之间的差距,记降维网络F网络的参数为θI,模仿学习目标是最小化策略网络的参数θI,其中L表示两个参数方向盘控制量Si,t ,加减速控制量ai,t的差距。
Figure 24433DEST_PATH_IMAGE001
降维网络F的输入为来自驾驶车辆顶部面向正前方的照相机,可以获得采样分辨率为88×200的RGB图像image,降维网络结构设计为8层卷积网络和2层全连接网络,最终输出2维车辆控制信号:方向盘控制量st、加减速控制量at,整个图像降维网络F的结构如图2所示。网络的损失函数LSE1定义为两个输出结果(方向盘控制量s和加减速控制量a)的损失,即最小平方误差(LSE1)。
LSE1 =║s-sgt2+║a-agt2
sgt为t时刻方向盘控制量真值,agt为t时刻加减速控制量真值,待训练结束后保留网络的参数并去掉网络的全连接层,这样得到了从88×200×3维的高维输入图像image映射为512维度图像特征fimg的降维网络,此图像降维网络将保存至强化学习阶段使用。
2 异构融合特征设计
选择使用深度确定性策略梯度(DDPG)方法作为强化学习的框架,记环境融合状态st,相应的动作为at,网络相关参数为θu,分别使用策略网络和价值Q网络来模拟策略函数u(stu)和价值Q(st,atu)函数,两者均使用多层全连接网络来模拟。
仅使用前置照相机获得的图像特征不能完整描述车辆所处状态信息,为了在不大量增加输入数据的基础上提高系统对整体环境的感知,将对车辆状态描述的5维状态特征:当前方向盘控制量s、当前加减速控制量a、归一化速度v、人行道跨越惩罚rr,车道跨越惩罚ro,整合记录为车辆状态特征fagt,车辆状态特征高度描述了车辆的时空状态信息,为了确保特征信息能发挥作用,不被512维图像状态fimg所淹没,采用分级整合连接的方式异构融合这些特征。将车辆状态特征fagt通过两层128单元的全连接网络映射为128维特征后,再与512维图像状态fimg相拼接,以增强其效果。
策略网络为也多层全连接结构,以512+128的融合状态st为输入,输出为2维车辆控制信号,方向盘控制量和加减速控制量。使用蒙特卡罗采样对策略网络的梯度做无偏估计,如图3所示。
价值Q网络为了更好的融合不同描述角度的特征信息,采用分级设计的多层全连接结构,以512+128的融合状态st为输入,单层全连接映射为200维,然后拼接从策略网络得到2维输出映射的100维特征,再经多层全连接得到输出Q(st,at),如图4所示。
3 奖惩函数设计
奖惩函数作为引导强化学习进行的重要模块,其设计直接影响强化学习的进行。针对自动驾驶场景量身定制了奖惩函数。奖励函数分为6个部分:速度奖励ra(v),方向盘约束惩罚rs(s),人行道跨越惩罚rr,车道跨越惩罚ro,碰撞惩罚rd以及静态惩罚rc,最终结果为这6个部分的数值总和;
r=ra(v)+ rs(s)+ rr+ro+ rd+rc
速度奖励 ra(v)定义为:
Figure 558182DEST_PATH_IMAGE002
其中v的单位为km/h,此奖励项为强化学习过程中最主要的正值奖励项,本实验环境下vmax取值为10 km/h
方向盘约束惩罚定义为:
rs(s)= - λs|s|
其中s为方向盘控制量,取值空间为[-1,1],rs(s)是为了减少驾驶学习过程中方向盘不必要的抖动,使得驾驶过程更加平稳,本实验环境下λs取值为30。
人行道跨越惩罚rr和车道跨越惩罚ro均为条件触发的二值量,未触发时,其值为0。触发条件分别为当发生人行道跨越、发生车道跨越时,触发后奖励数值均定义为-100。
碰撞惩罚rd也为条件触发的二值量,未触发时,其值为0。触发条件为当发生任何碰撞时,触发后奖励数值定义为-100,并且会终止此次实验场景。
静态惩罚rc也为条件触发的二值量,未触发时,其值为0。触发条件为当速度小于0.1m/s时,触发后奖励数值定义为-5,若连续2秒内持续处于此状态下,则也会终止此次实验场景。
4 系统框架和算法流程
首先预训练图像降维网络,然后通过降维的图像特征和车辆状态特征异构融合作为输入状态,经验回放池采样更新网络,方法整体架构如图5所示。
基于异构融合特征的强化学习自动驾驶算法流程如下:
(1)根据LSE1=║s-sgt2+║a-agt2训练图像降维网络F;
(2)初始化在线演员网络,在线评论家网络的参数;
(3)将在线网络的参数拷贝到对应目标网络中;
(4)初始化经验回放池D;
(5)for 场景片断帧加载1…M do;
(6)初始化UO噪声随机过程;
(7)for t = 1…T do;
(8)根据当前状态获得动作at=μ(stμ)+Nt,其中Nt代表OU噪声;
(9)执行动作at并得到t时刻的奖励rt和将仿真环境中得到图像Image通过图像降维网络
Figure 363459DEST_PATH_IMAGE003
得到图像特征
Figure 324461DEST_PATH_IMAGE004
,连同从仿真环境中获得的车辆状态特征
Figure 97245DEST_PATH_IMAGE005
异构融合为状态st+1
(10)将这个状态转换过程(st,at,rt,st+1)存入经验回放池D中;
(11)从经验回放池D随机采样N条数据,作为在线策略网络、在线Q网络的训练数据;
(12)计算Q网络的损失函数并更新在线Q网络参数;
(13)计算策略网络的梯度并更新在线策略网络参数;
(14)软更新目标网络参数;
(15)结束时间步长;
(16)结束场景帧。
(三)有益效果
本发明提供了一种基于异构融合特征的强化学习。通过搭建基于异构融合特征的深度确定性策略梯度强化学习方法来完成自动驾驶任务,该方法通过设置在车辆顶部正前方的照相机作为传感器,在模仿学习阶段,利用从人类驾驶数据中学到的知识来将高维图像信息降维为低维图像特征,连同从仿真环境中获得的几个描述环境的关键参数补全车辆状态信息,采用分级整合连接的方式异构融合这些特征。在强化学习阶段,采用深度确定性策略梯度算法并设计了为自动驾驶量身定制的奖励函数有效引导学习过程。系统设计可以有效学习驾驶技能,基于异构融合特征的设计可以有效加速训练进程。该系统可以完成简单的驾驶任务,且具备针对动态特征的响应能力。
本方法的特点:
1)使用新的模仿结构构建图像降维网络,有效降低强化学习的输入维度。
2)选择精简而具有高概括性的状态特征构建异构融合特征设计,提高强化学习效果。
3)引入奖励函数,更高效地引导强化学习过程。
附图说明
图1为基于异构融合特征的强化学习系统结构图;
图2为图像降维网络F结构图;
图3为策略网络结构图;
图4为价值Q网络结构图;
图5为基于异构融合特征的深度强化学习自动驾驶结构图;
图6 为异构网络训练超参数设置图;
图7 为异构融合特征和直接输入特征方法训练信息对比图;
图8为异构融合特征方法评估指标图。
具体实施方式
为了更好的训练并测试自动驾驶决策方法,本发明选择了CARLA开源自动驾驶仿真环境。CARLA是一款新颖的自动驾驶仿真软件,其基于Unreal Engine 4引擎提供了三维可视画面,城市环境资源(包含城市地图和符合动力学的汽车与行人),多种类的传感器,高仿真的光照与天气以及符合物理动力学规律的车辆模型。
CARLA采用了服务器-客户端架构,服务器负责仿真相关内容:传感器渲染、物理计算、世界状态及其车辆的更新等等,客户端由一组客户端模块组成,控制场景中车辆的逻辑,服务器与客户端之间的联系通过CARLA API实现。
在本实验中,CARLA仿真平台的时间步长设置为0.1s,训练天气设置为干净的中午、有积水的中午、下雨的中午、干净的黄昏、下雨的黄昏5种天气随机选择,设置仿真环境中其他动态车辆数为20,动态行人数为40。训练过程中,车辆会从83个起初坐标中随机选择,持续行进直到达到终止条件。
1实验参数设置
训练过程中,模型输入都进行归一化,方向盘控制量s属于[-1,1],加减速控制量a属于[-1,1],其他训练参数设置如图6所示。
2结果及分析
为了公平的评估异构融合特征方法,选择将相同的输入信息不经过异构融合,直接输入强化学习网络以便对比。图7记录了两种方法达到稳定所需要的迭代次数,所需的时间以及稳定后的平均奖励值。
为了进一步衡量和比较不同驾驶方法的性能,本发明使用了这样的评估标准,自动驾驶车辆将采用漫游的方式在未经训练过的地图上行驶。本发明定义了三个评价指标:1)道路外时间:统计车辆进入道路外的时间,以秒为单位。2)车道外时间:统计车辆进入其他车道的时间,以秒为单位。3)碰撞次数:统计车辆发生碰撞的次数。由上述可知,异构融合特征方法的学习速度较快,可以很快地学习并稳定至较优的奖励值,所需时间也有所减少,具体数据如图8所示。
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于异构融合特征的强化学习自动驾驶方法,其特征在于:整个异构融合特征的强化学习系统的训练分为模仿学习、强化学习两个阶段; 模仿学习阶段包含:输入图像,真值输入,降维网络, 预测输出;强化学习阶段:包含输入图像,演员网络,环境特征,评论家网络,奖励模块,仿真环境。
2.根据权利要求1所述的一种基于异构融合特征的强化学习自动驾驶方法,其特征在于:在模仿学习阶段中,通过真值输入模块, 使用在仿真实验平台收集的驾驶数据通过监督学习的形式对图像降维网络进行预训练,然后共享此网络的权值至强化学习阶段,这种方法得到图像降维网络,降低输入状态的维度,加速整个学习的过程;在强化学习阶段,采用深度确定性策略梯度强化学习算法,让车辆在仿真环境中自主探索学习,以完善在各种复杂交通场景中的策略。
3.根据权利要求1所述的一种基于异构融合特征的强化学习自动驾驶方法,其特征在于:奖励模块包含奖惩函数, 奖惩函数作为引导强化学习重要模块,其设计直接影响强化学习的效果,针对自动驾驶场景设计了奖惩函数,奖惩函数分为6个部分:速度奖励ra(v),方向盘约束惩罚rs(s),人行道跨越惩罚rr,车道跨越惩罚ro,碰撞惩罚rd以及静态惩罚rc,最终结果为这6个部分的数值总和;
r=ra(v)+ rs(s)+ rr+ro+ rd+rc
速度奖励 ra(v)定义为:
Figure DEST_PATH_IMAGE001
其中速度v的单位为km/h,vmax为速度最大值;速度奖励ra(v)为强化学习过程中重要的正值奖励项;
方向盘约束惩罚rs(s)定义为:
rs(s)= - λs|s|
其中s为方向盘控制量,取值空间为[-1,1],rs(s)是为了减少驾驶学习过程中方向盘不必要的抖动,使得驾驶过程更加平稳;人行道跨越惩罚rr和车道跨越惩罚ro均为条件触发的二值量,未触发时,其值为0;触发条件分别为当发生人行道跨越、发生车道跨越时,触发后奖励数值均定义为-100;碰撞惩罚rd也为条件触发的二值量,未触发时,其值为0;触发条件为当发生任何碰撞时,触发后奖励数值定义为-100,并且会终止此次实验场景;静态惩罚rc也为条件触发的二值量,未触发时,其值为0;触发条件为当速度小于0.1m/s时,触发后奖励数值定义为-5,若连续2秒内持续处于此状态下,则会终止此次实验场景。
CN202110273101.6A 2021-03-14 2021-03-14 一种基于异构融合特征的强化学习自动驾驶方法 Withdrawn CN113255054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110273101.6A CN113255054A (zh) 2021-03-14 2021-03-14 一种基于异构融合特征的强化学习自动驾驶方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110273101.6A CN113255054A (zh) 2021-03-14 2021-03-14 一种基于异构融合特征的强化学习自动驾驶方法

Publications (1)

Publication Number Publication Date
CN113255054A true CN113255054A (zh) 2021-08-13

Family

ID=77181037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110273101.6A Withdrawn CN113255054A (zh) 2021-03-14 2021-03-14 一种基于异构融合特征的强化学习自动驾驶方法

Country Status (1)

Country Link
CN (1) CN113255054A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN113867332A (zh) * 2021-08-18 2021-12-31 中国科学院自动化研究所 一种无人车自学习控制方法、装置、设备及可读存储介质
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN113867332B (zh) * 2021-08-18 2024-05-14 中国科学院自动化研究所 一种无人车自学习控制方法、装置、设备及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867332A (zh) * 2021-08-18 2021-12-31 中国科学院自动化研究所 一种无人车自学习控制方法、装置、设备及可读存储介质
CN113867332B (zh) * 2021-08-18 2024-05-14 中国科学院自动化研究所 一种无人车自学习控制方法、装置、设备及可读存储介质
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114527666B (zh) * 2022-03-09 2023-08-11 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Similar Documents

Publication Publication Date Title
Li et al. Humanlike driving: Empirical decision-making system for autonomous vehicles
Dosovitskiy et al. CARLA: An open urban driving simulator
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
US11480972B2 (en) Hybrid reinforcement learning for autonomous driving
US11243532B1 (en) Evaluating varying-sized action spaces using reinforcement learning
CN113255054A (zh) 一种基于异构融合特征的强化学习自动驾驶方法
Chen et al. Brain-inspired cognitive model with attention for self-driving cars
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN114035575B (zh) 基于语义分割的无人驾驶车辆运动规划方法及系统
CN110281949B (zh) 一种自动驾驶统一分层决策方法
Zhang et al. A systematic solution of human driving behavior modeling and simulation for automated vehicle studies
CN114282433A (zh) 基于模仿学习与强化学习结合的自动驾驶训练方法及系统
Koenig et al. Bridging the gap between open loop tests and statistical validation for highly automated driving
Youssef et al. Comparative study of end-to-end deep learning methods for self-driving car
Capo et al. Short-term trajectory planning in TORCS using deep reinforcement learning
Arbabi et al. Planning for autonomous driving via interaction-aware probabilistic action policies
Zhang et al. Learning how to avoiding obstacles for end-to-end driving with conditional imitation learning
CN115719547A (zh) 基于多重交互行为的交通参与者轨迹预测方法及系统
CN114954498A (zh) 基于模仿学习初始化的强化学习换道行为规划方法及系统
CN114117944A (zh) 一种模型更新方法、装置、设备及可读存储介质
CN113486568A (zh) 基于环绕视觉的车辆控制动态模仿学习算法
Fennessy Autonomous vehicle end-to-end reinforcement learning model and the effects of image segmentation on model quality
Imam et al. Autonomous driving system using proximal policy optimization in deep reinforcement learning
Tian et al. Autopilot strategy based on improved DDPG algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210813