CN112904864B - 基于深度强化学习的自动驾驶方法和系统 - Google Patents

基于深度强化学习的自动驾驶方法和系统 Download PDF

Info

Publication number
CN112904864B
CN112904864B CN202110116761.3A CN202110116761A CN112904864B CN 112904864 B CN112904864 B CN 112904864B CN 202110116761 A CN202110116761 A CN 202110116761A CN 112904864 B CN112904864 B CN 112904864B
Authority
CN
China
Prior art keywords
automatic driving
action
network model
control action
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110116761.3A
Other languages
English (en)
Other versions
CN112904864A (zh
Inventor
陈天星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilu Technology Co Ltd
Original Assignee
Dilu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilu Technology Co Ltd filed Critical Dilu Technology Co Ltd
Priority to CN202110116761.3A priority Critical patent/CN112904864B/zh
Publication of CN112904864A publication Critical patent/CN112904864A/zh
Application granted granted Critical
Publication of CN112904864B publication Critical patent/CN112904864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于深度强化学习的自动驾驶方法和系统,上述方法通过搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型,将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集,设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集,采用最终控制动作集控制自动驾驶汽车行驶,能够实现对自动驾驶汽车的准确实时控制。

Description

基于深度强化学习的自动驾驶方法和系统
技术领域
本发明涉及强化学习自动驾驶技术领域,尤其涉及一种基于深度强化学习的自动驾驶方法和系统。
背景技术
现有的自动驾驶解决方案主要依靠建图、规划、控制等模块,通过“高精地图+运动规划+控制”使汽车能够自动行驶。随着科技不断进步,人工智能技术的快速发展,一大批智能算法被研发出来。其中强化学习算法被逐渐的应用与自动驾驶技术中,强化学习是一种交互学习式算法,机器人通过与环境交互,从环境中获取奖励制来修正动作,最终学习能够执行最佳动作。因为强化学习是一种更接近于人类学习方式的一种算法,使机器人朝着更加智能化的方向发展。由于传统的路径规划技术依赖于环境地图,因此在复杂环境下,规划算法的实时性不高,无法及时应对复杂多变的环境。
发明内容
针对以上问题,本发明提出一种基于深度强化学习的自动驾驶方法和系统。
为实现本发明的目的,提供一种基于深度强化学习的自动驾驶方法,包括如下步骤:
搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型;
将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集;
设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集;
采用最终控制动作集控制自动驾驶汽车行驶。
在一个实施例中,在所述采用最终控制动作集控制自动驾驶汽车行驶之后,所述方法还包括:
通过预设的损失函数计算出当前控制动作集和真实值之间的误差,根据当前控制动作集和真实值的误差采用反向传播的方法训练网络模型的网络参数,以减小网络模型的误差。
具体地,在所述采用最终控制动作集控制自动驾驶汽车行驶之后,所述方法还包括:
根据预设的安全标准、车速范围和自动驾驶汽车与道路边缘之间的距离设计报酬函数。
在一个实施例中,所述网络模型的搭建过程包括:
将网络模型搭建为输入是自动驾驶汽车传感器测量的环境信息,经过两个隐藏层,最终输出三个控制动作集的模型;
具体地,所述三个控制动作集包括方向盘控制集、加速控制集和刹车控制集;
所述方向盘控制集经过所述网络模型的激活函数作用最终在输出层输出一个(-1,+1)的动作集;其中-1代表最大右转,+1代表最大左转;
所述加速控制集通过所述网络模型的激活函数sigmoid的作用最终输出一个(0,1)的动作集;其中0代表不加速,+1代表全加速;
所刹车控制集经过所述网络模型的激活函数sigmoid的作用输出一个(0,1)的连续动作;其中0代表不刹车,1代表紧急刹车。
在一个实施例中,自动驾驶汽车传感器测量的当前环境信息的获取过程包括:
获取观测值,所述观测值定义为汽车车身方向和道路轴之间的夹角(-π-π);
获取汽车速度;所述汽车速度包括汽车纵向轴线速、汽车的横向轴线的速度和汽车的Z轴线的速度;
获取车轮的旋转速度;
获取汽车发动机的每分钟转速;
获取车和道路的距离,对车和道路的距离做归一化处理,0表示道路中间,大于1或小于-1表示跑出车道;
获取车和道路边缘的距离。
在一个实施例中,所述当前控制动作集包括:
方向盘动作;其中方向盘动作经归一化处理后-1最大右转,+1最大左转;
加速度动作;其中加速度动作经归一化处理后0代表不加速,+1代表全加速;
刹车动作;其中刹车动作经归一化处理后0代表不刹车,+1代表紧急刹车。
在一个实施例中,所述设计动作噪声包括:
采用奥恩斯坦-乌伦贝克随机微分过程添加动作噪声。
一种基于深度强化学习的自动驾驶系统,包括:
搭建模块,用于搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型;
输入模块,用于将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集;
设计模块,用于设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集;
采用模块,用于采用最终控制动作集控制自动驾驶汽车行驶。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的基于深度强化学习的自动驾驶方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例提供的基于深度强化学习的自动驾驶方法。
上述基于深度强化学习的自动驾驶方法和系统,具有如下有益效果:
将DDPG算法应用到自动驾驶领域,解决了自动驾驶中连续动作解的问题。
从安全性、速度、距离三个方面综合考虑设计报酬函数,使汽车在宝成安全的前提下快速最短的达到目标点。
设计一种随机动作噪声,增大动作集,保证最后规划出的动作使最优动作。
附图说明
图1是一个实施例的基于深度强化学习的自动驾驶方法流程图;
图2是另一个实施例的基于深度强化学习的自动驾驶方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1所示,本申请一方面提供一种基于深度强化学习的自动驾驶方法,包括如下步骤:
S10,搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型。
该步骤可以采用DDPG算法基于Actor-Critic网络结构构建所需的网络模型。
S30,将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集。
上述当前环境信息主要包括:观测角度、车身速度、车轮转速、汽车行驶距离、车身和道路轴之间的距离等。上述当前控制动作集可以包括智能体(自动驾驶汽车)能够执行的动作。智能体通过相应传感器信息得到当前的自身状态,在当前状态下执行动作集所规定的动作,从中获取奖赏值用于评价动作的好坏。
S40,设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集。
该步骤增加动作噪声的设计用于提高智能体的探索能力。
S50,采用最终控制动作集控制自动驾驶汽车行驶。
该步骤中,智能体通过相关传感器获取当前自身的状态,通过执行步骤S30和步骤S40中设计的动作值来获取奖赏信息.
上述基于深度强化学习的自动驾驶方法,通过搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型,将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集,设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集,采用最终控制动作集控制自动驾驶汽车行驶,能够实现对自动驾驶汽车的准确实时控制。
在一个实施例中,步骤S50,采用最终控制动作集控制自动驾驶汽车行驶之后,还包括:
S70,通过预设的损失函数计算出当前控制动作集和真实值之间的误差,根据当前控制动作集和真实值的误差采用反向传播的方法训练网络模型的网络参数,以减小网络模型的误差。
本实施例过设计的损失函数计算出预测值和真实值之间的误差,采用反向传播的方法训练网络参数来减小网络模型的误差,以进一步提升自动驾驶控制过程中的准确性。
具体地,步骤S50,采用最终控制动作集控制自动驾驶汽车行驶之后,还包括:
S60,根据预设的安全标准、车速范围和自动驾驶汽车与道路边缘之间的距离设计报酬函数。
在一个示例中,上述报酬函数的设计过程包括:
步骤S61:安全角度考虑,应尽可能的让汽车沿着车道中轴线行驶,因此设计式(4-2)
vysin(θ)+vx|trackPose| (4-2)
式中v代表汽车当前时刻的车速、θ代表汽车当前时刻与车轴的夹角、vysin(θ)表示汽车的横向速度,vx|trackPose|表示汽车的横向偏移量。
步骤S62:时间角度考虑,车身的纵向速度应尽可能大,因此设计式(4-3)
vxcos(θ) (4-3)
式中vx(cosθ)表示汽车当前时刻纵轴的速度。
步骤S63:距离角度考虑,汽车应该沿着直线行驶,尽量少转向,结合安全性能可知应尽可能沿着道路中轴线行驶。
步骤S64:综合考虑安全性、时间、距离等性质,报酬函数设计如式(4-4)
Rt=vxcos(θ)-vysin(θ)-vx|trackPose| (4-4)
根据步骤S61到S63得到总的奖赏函数,Rt代表t时刻的奖赏值。
在一个实施例中,所述网络模型的搭建过程包括:
将网络模型搭建为输入是自动驾驶汽车传感器测量的环境信息,经过两个隐藏层(分别拥有300和600个隐藏单元),最终输出三个控制动作集的模型。
所述三个控制动作集包括方向盘控制集、加速控制集和刹车控制集;
所述方向盘控制集经过所述网络模型的激活函数作用最终在输出层输出一个(-1,+1)的动作集;其中-1代表最大右转,+1代表最大左转;
所述加速控制集通过所述网络模型的激活函数sigmoid的作用最终输出一个(0,1)的动作集;其中0代表不加速,+1代表全加速;
所刹车控制集经过所述网络模型的激活函数sigmoid的作用输出一个(0,1)的连续动作;其中0代表不刹车,1代表紧急刹车。
在一个实施例中,步骤S10之前还可以包括:通过自动驾驶汽车传感器输入当前环境信息,当前环境信息主要包括:观测角度、车身速度、车轮转速、汽车行驶距离、车身和道路轴之间的距离等。
具体地,自动驾驶汽车传感器测量的当前环境信息的获取过程包括:
步骤S21,获取观测值,所述观测值定义为汽车车身方向和道路轴之间的夹角(-π-π);
步骤S22,获取汽车速度;所述汽车速度包括汽车纵向轴线速、汽车的横向轴线的速度和汽车的Z轴线的速度;
步骤S23,获取车轮的旋转速度;
步骤S24,获取汽车发动机的每分钟转速;
步骤S25,获取车和道路的距离,对车和道路的距离做归一化处理,0表示道路中间,大于1或小于-1表示跑出车道;
步骤S26,获取车和道路边缘的距离。
本实施例中,自动驾驶汽车传感器往往能够帮助相应智能体感知环境信息,通过不同类型的传感器获取的数据使智能体获取外界环境信息以及自身速度、角度等信息,通过这些信息使智能体更好的了解当前自身状态。
在一个实施例中,所述当前控制动作集包括:
方向盘动作;其中方向盘动作经归一化处理后-1最大右转,+1最大左转;
加速度动作;其中加速度动作经归一化处理后0代表不加速,+1代表全加速;
刹车动作;其中刹车动作经归一化处理后0代表不刹车,+1代表紧急刹车。
在一个实施例中,所述设计动作噪声包括:
采用奥恩斯坦-乌伦贝克随机微分过程添加动作噪声。
具体地,动作噪声可以参考公式(4-1)所示:
dxt=θ(μ-xt)dt+σdwt (4-1)
式中,θ代表变量回归有多快;μ代表均值;σ代表波动程度,t代表时间变量,d表示微分符号,xt表示当前时刻的动作值,wt表示维纳过程。
本实施例可以设计三种动作噪声,如表4-1所示:
表4-1动作噪声参数表
θ μ σ
油门 1.0 [0.3 0.8] 0.1
刹车 1.0 -0.1 0.05
转向 0.6 0.0 0.3
在一个实施例中,上述基于深度强化学习的自动驾驶方法也可以参考图2所示,由图2可知,基于深度强化学习的自动驾驶技术总体可以分为4部分,首先是环境信息的获取,包括当前车速的信息、车道线信息等,通过传感器获取的环境信息,智能体能够清楚地掌握自己当状态,并根据报酬函数计算出动动作的奖赏值,从中选择一个动作执,最后通过loss函数反向训练智能体,经过循环迭代,智能体最终学习输出最优动作。
上述基于深度强化学习的自动驾驶方法,具有如下有益效果:
传统的自动驾驶技术对地图精度要求很高,深度强化学习方法之获取当前环境中对智能体交互有帮助的信息,不需要高精地图。
传统的自动驾驶技术依赖于地图构建,通过构建环境地图进行决策规划最后到达控制端,这样是能算法的实时性无法保证。采用深度强化学习的方法,使汽车自主学习怎么行驶,自主规划,大大提高实时性。
本申请另一方面提供一种基于深度强化学习的自动驾驶系统,包括:
搭建模块,用于搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型;
输入模块,用于将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集;
设计模块,用于设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集;
采用模块,用于采用最终控制动作集控制自动驾驶汽车行驶。
关于基于深度强化学习的自动驾驶系统的具体限定可以参见上文中对于基于深度强化学习的自动驾驶方法的限定,在此不再赘述。上述基于深度强化学习的自动驾驶系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于如上所述的实施例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种基于深度强化学习的自动驾驶方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述基于深度强化学习的自动驾驶方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种基于深度强化学习的自动驾驶方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度强化学习的自动驾驶方法,其特征在于,包括如下步骤:
搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型;
将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集;
设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集;
采用最终控制动作集控制自动驾驶汽车行驶;
在所述采用最终控制动作集控制自动驾驶汽车行驶之后,所述方法还包括:
通过预设的损失函数计算出当前控制动作集和真实值之间的误差,根据当前控制动作集和真实值的误差采用反向传播的方法训练网络模型的网络参数,以减小网络模型的误差。
2.根据权利要求1所述的基于深度强化学习的自动驾驶方法,其特征在于,在所述采用最终控制动作集控制自动驾驶汽车行驶之后,所述方法还包括:
根据预设的安全标准、车速范围和自动驾驶汽车与道路边缘之间的距离设计报酬函数。
3.根据权利要求1所述的基于深度强化学习的自动驾驶方法,其特征在于,所述网络模型的搭建过程包括:
将网络模型搭建为输入是自动驾驶汽车传感器测量的环境信息,经过两个隐藏层,最终输出三个控制动作集的模型;
所述三个控制动作集包括方向盘控制集、加速控制集和刹车控制集;
所述方向盘控制集经过所述网络模型的激活函数作用最终在输出层输出一个(-1,+1)的动作集;其中-1代表最大右转,+1代表最大左转;
所述加速控制集通过所述网络模型的激活函数sigmoid的作用最终输出一个(0,1)的动作集;其中0代表不加速,+1代表全加速;
所刹车控制集经过所述网络模型的激活函数sigmoid的作用输出一个(0,1)的连续动作;其中0代表不刹车,1代表紧急刹车。
4.根据权利要求1所述的基于深度强化学习的自动驾驶方法,其特征在于,自动驾驶汽车传感器测量的当前环境信息的获取过程包括:
获取观测值,所述观测值定义为汽车车身方向和道路轴之间的夹角(-π-π);
获取汽车速度;所述汽车速度包括汽车纵向轴线速、汽车的横向轴线的速度和汽车的Z轴线的速度;
获取车轮的旋转速度;
获取汽车发动机的每分钟转速;
获取车和道路的距离,对车和道路的距离做归一化处理,0表示道路中间,大于1或小于-1表示跑出车道;
获取车和道路边缘的距离。
5.根据权利要求1所述的基于深度强化学习的自动驾驶方法,其特征在于,所述当前控制动作集包括:
方向盘动作;其中方向盘动作经归一化处理后-1最大右转,+1最大左转;
加速度动作;其中加速度动作经归一化处理后0代表不加速,+1代表全加速;
刹车动作;其中刹车动作经归一化处理后0代表不刹车,+1代表紧急刹车。
6.根据权利要求1所述的基于深度强化学习的自动驾驶方法,其特征在于,所述设计动作噪声包括:
采用奥恩斯坦-乌伦贝克随机微分过程添加动作噪声。
7.一种基于深度强化学习的自动驾驶系统,其特征在于,包括:
搭建模块,用于搭建输入为自动驾驶汽车传感器测量的环境信息,输出为汽车控制动作集的网络模型;
输入模块,用于将自动驾驶汽车传感器测量的当前环境信息输入网络模型,得到当前控制动作集;
设计模块,用于设计动作噪声,采用动作噪声修正所述当前控制动作集,得到最终控制动作集;
采用模块,用于采用最终控制动作集控制自动驾驶汽车行驶。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的基于深度强化学习的自动驾驶方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6任意一项所述的基于深度强化学习的自动驾驶方法。
CN202110116761.3A 2021-01-28 2021-01-28 基于深度强化学习的自动驾驶方法和系统 Active CN112904864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110116761.3A CN112904864B (zh) 2021-01-28 2021-01-28 基于深度强化学习的自动驾驶方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110116761.3A CN112904864B (zh) 2021-01-28 2021-01-28 基于深度强化学习的自动驾驶方法和系统

Publications (2)

Publication Number Publication Date
CN112904864A CN112904864A (zh) 2021-06-04
CN112904864B true CN112904864B (zh) 2023-01-03

Family

ID=76119555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110116761.3A Active CN112904864B (zh) 2021-01-28 2021-01-28 基于深度强化学习的自动驾驶方法和系统

Country Status (1)

Country Link
CN (1) CN112904864B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN109466552B (zh) * 2018-10-26 2020-07-28 中国科学院自动化研究所 智能驾驶车道保持方法及系统
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN112099496B (zh) * 2020-09-08 2023-03-21 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112232490B (zh) * 2020-10-26 2023-06-20 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法

Also Published As

Publication number Publication date
CN112904864A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN110745136A (zh) 一种驾驶自适应控制方法
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
Lopez et al. Game-theoretic lane-changing decision making and payoff learning for autonomous vehicles
CN110716562A (zh) 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN113359771B (zh) 一种基于强化学习的智能自动驾驶控制方法
CN112829747A (zh) 一种驾驶行为决策方法、装置及存储介质
WO2024087654A1 (zh) 一种自动驾驶车辆导航控制方法及系统
Na et al. Theoretical and experimental investigation of driver noncooperative-game steering control behavior
Rasib et al. Are Self‐Driving Vehicles Ready to Launch? An Insight into Steering Control in Autonomous Self‐Driving Vehicles
CN112904864B (zh) 基于深度强化学习的自动驾驶方法和系统
CN116495014B (zh) 一种自进化非博弈自动驾驶车辆人机共驾方法及系统
CN111923916B (zh) 一种基于视觉感知行为和anfis的仿人转向建模方法及转向控制系统
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN104570738A (zh) 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN114148349B (zh) 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
Zhu et al. Design of an integrated vehicle chassis control system with driver behavior identification
CN113696890B (zh) 车道保持方法、装置、设备、介质及系统
CN116009530A (zh) 一种自适应切向避障的路径规划方法和系统
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
CN114839992A (zh) 一种基于多智能体强化学习的自动驾驶协同决策方法
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
Liu et al. Personalized Automatic Driving System Based on Reinforcement Learning Technology
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant