CN113928321A - 一种基于端到端的深度强化学习换道决策方法和装置 - Google Patents

一种基于端到端的深度强化学习换道决策方法和装置 Download PDF

Info

Publication number
CN113928321A
CN113928321A CN202111400393.1A CN202111400393A CN113928321A CN 113928321 A CN113928321 A CN 113928321A CN 202111400393 A CN202111400393 A CN 202111400393A CN 113928321 A CN113928321 A CN 113928321A
Authority
CN
China
Prior art keywords
reinforcement learning
lane
action
deep reinforcement
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111400393.1A
Other languages
English (en)
Other versions
CN113928321B (zh
Inventor
鲍泓
徐歆恺
付一豪
王晨曦
宁晴
潘卫国
徐成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN202111400393.1A priority Critical patent/CN113928321B/zh
Publication of CN113928321A publication Critical patent/CN113928321A/zh
Application granted granted Critical
Publication of CN113928321B publication Critical patent/CN113928321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开一种基于端到端的深度强化学习换道决策方法和装置,初始化深度强化学习网络;将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。本发明的技术方案,针对自动驾驶车辆在实际道路上的换道行为存在的问题,有效防止了模块之间的误差传递与积累,使得自动驾驶车辆可根据图像特征与换道决策形成映射关系。

Description

一种基于端到端的深度强化学习换道决策方法和装置
技术领域
本发明属于自动驾驶技术领域,尤其涉及一种基于端到端的深度强化学习换道决策方法和装置。
背景技术
换道问题是自动驾驶领域中一个基础且关键的问题,是一项艰巨的任务,自动驾驶车辆需要警惕地观察其自身车道前方车辆和旁边车道上的周围车辆,并根据这些相关车辆所表现出的潜在对抗性或合作反应采取适当的行动。为了实现高级自动化且安全的换道驾驶,自动驾驶车辆就需要在复杂场景下学习做出正确合理的决策并控制其移动。
现有的自动驾驶换道决策方法主要分为三类:基于规则的换道决策方法、基于机器学习的换道决策方法以及基于强化学习的换道决策方法。
基于规则的换道决策方法,例如根据当前周围车辆的距离及车速,预定义一些换道规则来建立模型,这些方法多数引入一个虚拟换道轨迹或一系列的路点,以便换道时,自动驾驶车辆可以随轨迹行驶。它们的共同限制是在动态情况和不同驾驶风格下,计划轨迹缺乏灵活性。此外,虽然它在预先定义的情况下或在模型范围内可能工作得相对较好,但在处理超出定义范围的情况时,效果很不理想。
基于机器学习的换道决策方法,例如基于支持向量机的换道决策方法,在对大量样本数据进行适当训练后,可以在没有明确具体的设计和编程规则的情况下,能处理复杂场景中不可预见的情况。然而,在缺乏训练有素的模型和适当的策略设计时,自动驾驶车辆的行为仍然不够理想。
基于强化学习的换道决策方法,例如基于Q-learning的换道决策方法,它有能力从试验和错误中学习,并为长期目标寻求最佳策略,具有更好的鲁棒性和安全性。但是,基于强化学习的换道决策算法难以处理高维度的输入数据,状态空间越大,算法构建就越复杂。
发明内容
基于规则的换道决策方法在预先定义的情况下或在模型范围内可能工作得相对较好,但在处理超出定义范围的情况方面远远不够,而基于机器学习的换道决策方法在没有训练有素的模型和适当的策略设计,其最终效果可能难以让人满意。为了解决以上方法中存在的问题,同时也因为雷达设备的高成本问题,本发明使用低成本的单目相机作为输入设备,设计了一种端到端的基于注意力机制的深度强化学习网络,并以此为基础实现了一种基于端到端的深度强化学习换道决策方法和装置
为实现上述目的,本发明采用如下的技术方案
一种基于端到端的深度强化学习换道决策方法,包括以下步骤:
步骤1、初始化深度强化学习网络;
步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
步骤4、根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
作为优选,步骤1中,初始化深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间。
作为优选,步骤2包括以下步骤:
步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,获得符合要求的采集数据;
步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;
步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3。
作为优选,步骤3包括以下步骤:
步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;
步骤3.2,根据第二奖励值计算其对应的损失值;
步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练。
作为优选,步骤2中,深度强化学习网络为Xception模型与CBAM(ConvolutionalBlock Attention Module)注意力机制以及两层全连接层组成的DQN(deep Q net work)神经网络。
作为优选,步骤1中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
作为优选,步骤2中,DQN神经网络的输入为当前状态值,输出的为预测的各车辆动作价值量,在每一个时间步,根据各个动作价值量,通过贪婪算法e-greedy选择动作,根据选择的动作得到奖励值以及下一个时刻状态,其中下一时刻状态指车辆执行动作后的新状态。
作为优选,步骤3中,深度强化学习网络的损失函数定义如下:
L=E[r+γmaxQ(s',a')-Q(s,a)]2
其中,s与a为当前时刻的状态和动作,s'与a'为下一时刻的状态和动作,γ为学习率,r为奖励值,E为求数学期望,Q为网络的输出值即输入动作s和a来获得网络输出值Q。
本发明还公开一种基于端到端的深度强化学习换道决策装置,包括,
初始化模块,用于初始化深度强化学习网络;
获取模块,用于将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
训练模块,用于根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
决策模块,用于根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
作为优选,深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间;其中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
本发明的端到端的网络结构将输入的图像信息与换道决策输出形成直接连贯的映射,简单来说就是输入一张自动驾驶车辆前方相机采集的图片到深度强化学习网络中,网络直接输出左换道或右换道或保持车道的决策。本发明的方法针对自动驾驶车辆在实际道路上的换道决策的问题,提出基于端到端的深度强化学习的换道决策方法,同时端到端的设计,使得视觉输入与决策输出实现了直接映射,有效防止了模块之间的误差传递与积累,使得自动驾驶车辆可根据图像特征与换道决策形成映射关系,且由于网络中增加了注意力机制,网络的收敛速度得到提升。相比于其他传统的方法,该方法不仅具有较高的鲁棒性,而且可以大大降低开发成本以及硬件成本,为自动驾驶技术的落地增加了可能性。
附图说明
图1为本发明基于端到端的深度强化学习换道决策方法的网络结构;
图2为本发明基于端到端的深度强化学习换道决策方法的流程图;
图3为本发明基于端到端的深度强化学习换道决策装置的结构示意图。
具体实施方式
如图1和2所示,本发明提供一种基于端到端的深度强化学习换道决策方法,包括以下步骤:
步骤1、初始化深度强化学习网络,定义并设置状态空间、奖励函数、记忆表、以及动作空间;
步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据,包括以下步骤:
步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,获得符合要求的采集数据;
步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;
步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3;
步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,包括以下步骤:
步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;
步骤3.2,根据第二奖励值计算其对应的损失值;
步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练;
步骤4、根据自动驾驶车辆的当前环境,通过训练后的换道决策模型进行正确安全的换道决策。
进一步,步骤1中,深度强化学习网络为Xception模型与CBAM注意力机制以及两层全连接层组成的DQN神经网络。
进一步,步骤1中,状态空间大小为[640,480,3],也就是经过处理后的图片数据;动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用以存储决策时的当前状态、下一状态、获得的奖励以及采取的动作;奖励函数分为两种情况:第一种情况是选择保持车道动作的奖励函数,该奖励函数取决于当前车辆与前方车辆的距离以及速度差,奖励函数如下:
r1=w1*(xdis-xsafe)+w2*(vself-vfront) (1)
其中,w1与w2为权重常数,通常设置w1为0.5,w2为-0.5,xdis为当前车辆与前车的距离,vself为当前车辆车速,vfront为前方车辆车速,xsafe为安全距离,其计算与当前车速有关,公式如下:
Figure BDA0003371365820000061
其中,t为人的反应时间,u为当前车辆纵向加速度,dt是一个安全阈值,可以根据需求定义,一般是1。
第二种情况为选取左右换道的奖励函数,该奖励函数取决于目标车道上的目标车辆的距离与车速,公式如下:
r2=w3*(xdis-xsafe-(vself-vtarget)t1) (3)
其中,w3为权重常数,通常设置为0.5,xdis为当前车辆与目标车辆的距离,t1为换道所需时间,通常为1.5秒左右。
进一步,步骤2中,相机采集到的RGB图像大小为640×480,在输入进深度强化学习模型前,将图片数据转化为维度[640,480,3]的数组数据。最终的输入层包含3通道,每一个通道都为640×480。
进一步,步骤2中,DQN神经网络的输入是当前状态值s,输出的是预测的各动作价值量Q(s,a),在每一个时间步,根据个动作价值量Q(s,a),使用贪婪算法e-greedy选择动作,做出决策,根据选择动作得到一个奖励值r以及下一个状态s',这样就完成一个时间步。
进一步,步骤3中,深度强化学习网络的损失函数定义如下:
L=E[r+γmaxQ(s',a')-Q(s,a)]2 (4)
其中,s与a为当前时刻的状态和动作,s'与a'为下一时刻的状态和动作,γ为学习率,r为奖励值。
如图3所示,本发明提供一种基于端到端的深度强化学习换道决策装置,实现上述深度强化学习换道决策方法包括:
初始化模块,用于初始化深度强化学习网络;
获取模块,用于将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
训练模块,用于根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
决策模块,用于根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
进一步,深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间;其中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速
实施例1:
本实施例1的软件环境为Ubuntu18.04系统,python为3.7,仿真实验平台为Carla0.9.10,tensorflow-gpu版本为2.1.0,相机输入为仿真平台中的RGB相机分辨率为640×480。
本发明实施例包括以下步骤:
步骤1、初始化深度强化学习网络,深度强化学习网络为Xception模型与三层全连接层组成的DQN网络,定义并设置状态空间、奖励函数、记忆表、以及动作空间。状态空间大小为640×480×3,记忆表大小为2000,动作空间大小为3;
步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据,包括以下步骤:
步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,获得符合要求的采集数据;
步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;
步骤2.3、选取奖励值最高的动作来进行下一步行动。若选取左换道,则自动驾驶车辆将进行左换道操作,换道(成功或者撞车失败)结束后,将采集数据、左换道对应的第一奖励值、左换道以及执行左换道后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3;
步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,包括以下步骤:
步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;
步骤3.2,根据第二奖励值计算其对应的损失值;
步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练;
步骤4、根据自动驾驶车辆的当前环境,通过训练后的换道决策模型进行正确安全的换道决策。
本发明的方法针对自动驾驶车辆在实际道路上的换道行为存在的问题,提出基于端到端的深度强化学习的换道决策方法,同时端到端的设计,使得视觉输入与决策输出实现了直接映射,有效防止了模块之间的误差传递与积累,使得自动驾驶车辆可根据图像特征与换道决策形成映射关系。相比于其他传统的方法,该方法不仅具有较高的鲁棒性,而且可以大大降低开发成本以及硬件成本,为自动驾驶技术的落地增加了可能性。
尽管已参照优选实施例描述了本发明的方法原理,但本领域的技术人员应理解,上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明范围的情况下,做出的各种变化、变型、修改、替换、改进等技术方案,均应属于本发明公开的范畴。

Claims (10)

1.一种基于端到端的深度强化学习换道决策方法,其特征在于,包括以下步骤:
步骤1、初始化深度强化学习网络;
步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
步骤4、根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
2.如权利要求1所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤1中,初始化深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间。
3.如权利要求2所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤2包括以下步骤:
步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,将图像信息转化成大小为648*480*3的数组数据,来符合深度强化学习网络的输入;
步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;
步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3。
4.如权利要求3所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤3包括以下步骤:
步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;
步骤3.2,根据第二奖励值计算其对应的损失值;
步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练。
5.如权利要求1至4任意一个所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤2中,深度强化学习网络为Xception模型与CBAM注意力机制以及两层全连接层组成的DQN神经网络。
6.如权利要求5所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤1中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
7.如权利要求5所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤2中,DQN神经网络的输入为当前状态值,输出的为预测的各车辆动作价值量,在每一个时间步,根据各个动作价值量,通过贪婪算法e-greedy选择动作,根据选择的动作得到奖励值以及下一时刻状态,其中下一时刻状态指车辆执行动作后的新状态。
8.如权利要求7所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤3中,深度强化学习网络的损失函数L定义如下:
L=E[r+γmaxQ(s',a')-Q(s,a)]2
其中,s与a为当前时刻的状态和动作,s'与a'为下一时刻的状态和动作,γ为学习率,r为奖励值,E为求数学期望,Q为网络的输出值即输入动作s和a来获得网络输出值Q。
9.一种基于端到端的深度强化学习换道决策装置,其特征在于,包括:
初始化模块,用于初始化深度强化学习网络;
获取模块,用于将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
训练模块,用于根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
决策模块,用于根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
10.如权利要求9所述的基于端到端的深度强化学习换道决策装置,其特征在于,深度强化学习网络包括:状态空间、奖励函数、记忆表以及动作空间;其中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
CN202111400393.1A 2021-11-24 2021-11-24 一种基于端到端的深度强化学习换道决策方法和装置 Active CN113928321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111400393.1A CN113928321B (zh) 2021-11-24 2021-11-24 一种基于端到端的深度强化学习换道决策方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111400393.1A CN113928321B (zh) 2021-11-24 2021-11-24 一种基于端到端的深度强化学习换道决策方法和装置

Publications (2)

Publication Number Publication Date
CN113928321A true CN113928321A (zh) 2022-01-14
CN113928321B CN113928321B (zh) 2022-08-26

Family

ID=79287541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111400393.1A Active CN113928321B (zh) 2021-11-24 2021-11-24 一种基于端到端的深度强化学习换道决策方法和装置

Country Status (1)

Country Link
CN (1) CN113928321B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110562258A (zh) * 2019-09-30 2019-12-13 驭势科技(北京)有限公司 一种车辆自动换道决策的方法、车载设备和存储介质
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
WO2021103834A1 (zh) * 2019-11-27 2021-06-03 初速度(苏州)科技有限公司 换道决策模型生成方法和无人车换道决策方法及装置
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110562258A (zh) * 2019-09-30 2019-12-13 驭势科技(北京)有限公司 一种车辆自动换道决策的方法、车载设备和存储介质
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
WO2021103834A1 (zh) * 2019-11-27 2021-06-03 初速度(苏州)科技有限公司 换道决策模型生成方法和无人车换道决策方法及装置
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周斌: "基于强化学习的智能汽车自主换道方法研究", 《工程科技II辑》 *

Also Published As

Publication number Publication date
CN113928321B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
Zhang et al. Query-efficient imitation learning for end-to-end simulated driving
CN112937564B (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
KR102306939B1 (ko) V2x 통신 및 이미지 처리를 이용한 정보 융합을 통해 자율 주행의 단기 경로를 플래닝하기 위한 방법 및 장치
Cultrera et al. Explaining autonomous driving by learning end-to-end visual attention
Zhang et al. Query-efficient imitation learning for end-to-end autonomous driving
CN112162555B (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN110406530B (zh) 一种自动驾驶方法、装置、设备和车辆
CN112249032B (zh) 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN111679660A (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
WO2022197252A9 (en) Autonomous driving methods and systems
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
Onishi et al. End-to-end learning method for self-driving cars with trajectory recovery using a path-following function
Geiger et al. Learning game-theoretic models of multiagent trajectories using implicit layers
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN113511222A (zh) 场景自适应式车辆交互行为决策与预测方法及装置
CN111580526A (zh) 面向固定车辆编队场景的协同驾驶方法
CN113928321B (zh) 一种基于端到端的深度强化学习换道决策方法和装置
CN117406756A (zh) 一种运动轨迹参数的确定方法、装置、设备和存储介质
CN116872971A (zh) 一种基于人机协同增强的自动驾驶控制决策方法及系统
CN114707359A (zh) 基于值分布强化学习的自动驾驶汽车决策规划方法
KR20230024392A (ko) 주행 의사 결정 방법 및 장치 및 칩
US20240160945A1 (en) Autonomous driving methods and systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant