CN112965499B - 基于注意力模型和深度强化学习的无人车行驶决策方法 - Google Patents

基于注意力模型和深度强化学习的无人车行驶决策方法 Download PDF

Info

Publication number
CN112965499B
CN112965499B CN202110251268.2A CN202110251268A CN112965499B CN 112965499 B CN112965499 B CN 112965499B CN 202110251268 A CN202110251268 A CN 202110251268A CN 112965499 B CN112965499 B CN 112965499B
Authority
CN
China
Prior art keywords
network
action
decision
sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110251268.2A
Other languages
English (en)
Other versions
CN112965499A (zh
Inventor
陈美玲
李衍杰
刘奇
吕少华
许运鸿
刘悦丞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110251268.2A priority Critical patent/CN112965499B/zh
Publication of CN112965499A publication Critical patent/CN112965499A/zh
Application granted granted Critical
Publication of CN112965499B publication Critical patent/CN112965499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于注意力模型和深度强化学习的无人车行驶决策方法通过构建感知模块和决策模块完成无人车行驶决策任务,具体为:通过搭建自注意力模型和长短时记忆网络对感知模块进行建模,然后通过自动编码器模型对感知模块进行训练;利用卷积网络和全连接网络搭建决策模块,所述决策模块基于深度确定性策略算法。利用感知模块对观测数据进行降维,再利用深度强化学习决策模块进行策略学习,并通过引入优先经验回放的方法,提高数据样本的利用率,从而提高算法的训练速度。本发明方法通过在自动驾驶环境中进行模型训练后,可以在复杂的道路环境中安全行驶,并根据环境的变化制定合理的驾驶策略。

Description

基于注意力模型和深度强化学习的无人车行驶决策方法
技术领域
本发明涉及自动驾驶技术领域,特别涉及一种基于注意力模型和深度强化学习的无人车行驶决策方法。
背景技术
自动驾驶系统大体可以分为“感知-决策-控制”三个部分,而由于实际驾驶环境的复杂多变性,智能车需要充分考虑周围其他车辆的情况才能做出合理的决策,因而如何在复杂的道路环境中完成自动驾驶决策,是自动驾驶技术领域的关键研究难点。
目前的无人车行驶决策方法大体分成两类,一种是传统的基于规则的方法;另一种是基于学习的端到端方法。而通过基于学习的方法,能够随环境的变化做出正确的决策,实现自动驾驶技术的关键研究方向。基于学习的端到端方法,近些年机器学习及计算机技术的快速发展为实现端到端的自动驾驶决策提供了可能性。目前利用基于深度学习的方法和基于模仿学习的方法进行自动驾驶策略的研究都依赖于大量的数据以及相应的数据标签,且数据的质量极大的限制了自动驾驶策略的好坏,并不能满足自动驾驶任务的需求。而基于深度强化学习的无人车行驶决策方法,通过与环境的实时交互获得数据即环境的反馈,克服了数据集的限制;但是,由于驾驶环境的状态和动作空间庞大,利用深度强化学习算法完成无人车行驶决策任务时由于探索空间大,使得算法收敛慢,难以取得最优决策等问题。
例如中国专利公开号为CN110850877A的发明专利公开了一种基于虚拟环境和深度双Q网络的自动驾驶小车训练方法。该发明通过深度双Q网络模型在虚拟环境Unity中完成自动驾驶任务,但是该发明中使用的深度双Q网络对自动驾驶任务中的动作空间做了离散化操作,将原来的连续动作空间问题转换为了离散动作空间问题;虽然有效降低了动作空间的复杂度,减少了策略学习时动作空间的搜索范围,使得模型的训练难度得到降低;但是基于离散化的动作空间实现自动驾驶任务,仍具有一定的局限性,并不能充分的满足人类对自动驾驶汽车的要求。
在自动驾驶领域中,通过基于视觉的方法获取车辆周围道路情况是目前主要的方式之一;利用车辆中搭载的RGB摄像头获取的图像中具有丰富的道路信息,因而基于视觉的端到端自动驾驶决策方法得到广泛的研究;但是通过车辆前摄像头获得的图像信息属于高维数据,直接将这类高维数据作为状态输入到网络中,利用深度强化学习算法进行策略学习时,会存在模型训练效率低,难以快速收敛得到比较好的策略等问题。
例如中国专利公开号为CN112201069A的发明专利公开了一种基于深度强化学习的驾驶员纵向跟车行为模型构建方法。该发明以激光雷达、CCD摄像机和采集驾驶员驾驶车辆行驶过程中的速度、加速度、加速踏板开度信号等车辆状态信息以及天气、道路类型、信号灯、标志牌等环境信息作为网络的输入状态;其中,激光雷达和CCD摄像机输出的都是高维数据,在该发明中直接将这些高维数据输入到网络当中进行自动驾驶决策训练,会使得模型的训练难度大大增加。此外,中国专利公开号为CN111605565A的发明专利公开了一种基于深度强化学习的自动驾驶行为决策方法,同样是直接以RGB摄像头、红外摄像头和固态激光雷达等传感器获取的高维数据作为状态输入到网络中进行训练。上述两种发明专利都忽略了高维数据对于网络训练难度的影响,忽视了训练效率问题;此外,以大量的高维数据作为网络输入,对于计算机资源也会造成比较大的消耗。
以上这些问题都导致了基于现有的算法框架很难得到准确、快速、高效的自动驾驶策略。
发明内容
本发明针对上述问题,提供了一种基于注意力模型和深度强化学习的无人车行驶决策方法,可以加快算法的收敛速度,并提供可靠的驾驶决策方案。通过搭建基于自主注意力模型和长短时记忆网络的感知模块,对高维数据进行有效降维,获取图像中的障碍物等关键信息,有效加快算法的收敛速度,提高训练效率;利用深度确定性策略梯度算法搭建决策模块,完成连续动作空间下的无人车行驶决策任务,并通过引入优先经验回放的方法,提高数据样本的利用率,从而提高算法的训练速度;通过在自动驾驶环境中进行模型训练后,可以在复杂的道路环境中安全行驶,并根据环境的变化制定合理的驾驶策略。
本发明的技术方案是:将无人车行驶决策方法分解为两个模块:感知模块和决策模块,感知模块由自注意力模型和长短时记忆网络组成,车辆原始高维的观测数据x经过感知模块后得到有效的降维,最终保留道路上的障碍物等低维的特征信息,降低了后续进行策略学习的难度,可以有效提高算法的学习效率;决策模块通过深度确定性策略梯度算法构建动作网络Actor和值网络Critic进行策略学习,最终输出车辆的控制动作,完成自动驾驶决策任务。
本发明提供一种基于注意力模型和深度强化学习算法的无人车行驶决策方法,包括如下步骤:
步骤1,初始化自动驾驶环境,通过驾驶环境获取车辆前摄像头的观测序列;
步骤2,通过搭建自注意力模型和长短时记忆网络对感知模块进行建模,然后通过自动编码器模型对感知模块进行训练,利用训练好的感知模块提取出步骤1所述观测序列中的低维数据特征;
步骤3,利用卷积网络和全连接网络搭建决策模块,所述决策模块基于深度确定性策略算法,将步骤2得到的低维数据特征作为当前状态输入到决策模块中,决策模块根据输入的状态做出决策,并且得到当前最大概率执行的驾驶动作;
步骤4,车辆在自动驾驶环境中执行驾驶动作后,自动驾驶环境向决策模块反馈相应的奖励和下一时刻的状态,决策模块判断自动驾驶终止条件done是否被触发,同时将决策模块与自动驾驶环境交互的数据作为经验存入经验池D中;
步骤5,利用优先经验回放方法,从经验池D中按照经验优先级顺序抽取数据并进行训练;
步骤6,根据深度确定性策略算法计算决策模块的Q值,利用Q值对决策模块中的网络参数进行更新,以实现系统最大化奖励为目标;
步骤7,更新当前状态,同时对自动驾驶终止条件done进行判断,若done为假则将当前状态输入到决策模块得到更新后的当前最大概率执行的驾驶动作,然后重复步骤4至步骤6,若done为真则返回步骤1开始新一轮的策略学习。
本发明的进一步技术方案是:步骤2中,提取出步骤1所述观测序列中的低维特征,具体包括:
步骤21,从步骤1所述观测序列中提取长度为l的连续序列,利用自注意力模型提取连续序列的全局特征序列;
步骤22,将步骤21得到的全局特征序列输入到长短时记忆网络中获得数据的时序特征,最终得到同时具有全局性和时序性的低维数据特征。
本发明的进一步技术方案是:步骤21中,感知模块利用自注意力模型提取连续序列Xt={xt-l+1,...,xt-1,xt}的全局特征序列St={st-l+1,...,st-1,st}的计算公式为:
Figure BDA0002966171720000031
其中,s为全局特征序列St={st-l+1,...,st-1,st}的任一特征值,x为连续序列Xt={xt-l+1,...,xt-1,xt}的任一观测值,
Figure BDA0002966171720000032
均为自注意力模型中的网络参数,经过矩阵相乘后得到三种特征矩阵为:
Figure BDA0002966171720000033
Figure BDA0002966171720000034
H、W分别表示特征矩阵的高和宽,dk表示特征矩阵K的通道数,T表示矩阵转置,Softmax函数表示将自注意力模型的输出结果映射到(0,1)之间。
本发明的进一步技术方案是:步骤22中所述长短时记忆网络的计算公式为:
Figure BDA0002966171720000041
其中,Wf,Wi,Wc,Wo,bf,bi,bc,bo均为网络参数;σ,tanh为长短时记忆网络中使用的激活函数。
本发明的进一步技术方案是:步骤21还包括在自注意力模型中引入卷积网络,所述自注意力模型通过相对位置编码的方法,对连续序列中的观测数据进行位置编码,得到全局注意力特征,所述卷积网络对连续序列中的观测数据进行卷积运算后得到局部特征,将所述全局注意力特征和所述局部特征相结合,得到所述全局特征序列,其中,所述全局注意力特征的运算公式为:
Figure BDA0002966171720000042
其中,Ssa为所述全局注意力特征,
Figure BDA0002966171720000043
表示相对位置编码矩阵,AK的上标K表示相对位置编码是针对特征矩阵K。
本发明的进一步技术方案是:步骤2中所述自动编码器模型包括编码过程和解码过程,所述编码过程对观测序列进行编码,得到低维数据特征,所述解码过程将所述低维数据特征利用反卷积网络进行解码,输出的数据序列为反向观测序列,步骤2中所述对感知模块进行训练,是利用均方差判断观测序列与解码输出的反向观测序列之间的误差关系,损失函数LAE表达式为:
Figure BDA0002966171720000044
其中,xi分别表示观测序列的值,x′表示反向观测序列中与xi相对应的值,N表示从数据池中抽取的N个数据样本,AE表示自动编码器。
本发明的进一步技术方案是:所述决策模块包括动作网络Actor和值网络Critic,其中,所述动作网络Actor包括评估动作网络和目标动作网络,所述值网络Critic包括评估值网络和目标值网络,所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互,实现评估动作网络和评估值网络参数训练,并在固定间隔时间内,通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。
本发明的进一步技术方案是:步骤3具体还包括:将由感知模块获得的当前低维数据特征作为当前状态输入到评估动作网络中,得到自动驾驶车辆控制策略,根据自动驾驶车辆控制策略得到当前执行的驾驶动作,所述驾驶动作的表达式为:at=μw(St)+N,其中,μw表示自动驾驶车辆控制策略,St表示当前状态,N为高斯噪声。
本发明的进一步技术方案是:步骤5具体包括:
步骤51:将经验池D中的数据(St,at,rt,St+1,done)存入求和树Sumtree中,初始化数据的优先级为pt=1,其中,St、St+1分别表示当前状态和下一时刻状态,at表示当前执行的驾驶动作,rt表示执行动作at的奖励,done表示自动驾驶终止条件;
步骤51:从经验池D中根据优先级抽取N个数据样本
{Sj,aj,rj,S′j,donej},j=1,2,...,m,并将N个数据样本输入到目标值网络中,得到:
Figure BDA0002966171720000051
其中,yj表示在状态Sj和动作aj条件下的目标Q值,可通过Bellman方程得到,rj表示执行动作aj的奖励,Q′(S′j,μ′(S′j|w′)|θ′)表示在状态S′j和动作a′j=μ′(S′j|w′)条件下的目标值网络输出的Q值,其中μ′(S′j|w′)表示目标动作网络的输出结果,w′、θ′分别表示目标动作网络和目标值网络的参数,γ为折扣因子;
步骤52:将从经验池D中抽取的N个样本:{Sj,aj,rj,S′j,donej},j=1,2,...,m输入评估值网络中,得到评估值网络的输出结果为Q(Sj,aj|θ),其中θ为评估值网络的参数;
步骤53:计算数据的TD损失,计算公式如下:
TD_error(Sj,aj)=yj-Q(Sj,aj|θ)
步骤54:根据计算得到的TD损失更新求和树Sumtree中数据的优先级pj=TD_error(Sj,aj),并进行归一化处理作为数据抽取的概率,即
Figure BDA0002966171720000052
本发明的进一步技术方案是:步骤6具体包括:
步骤61:通过计算yj和评估值网络的输出结果Q(Sj,aj|θ)之间的平方差对评估值网络的参数θ进行更新,评估值网络的学习目标是使得评估值网络的输出结果Q(Sj,aj|θ)逼近于yj,更新网络参数θ的损失公式为:
Figure BDA0002966171720000053
步骤62:通过计算评估值网络的输出结果Q(Sj,aj|θ)对评估动作网络的参数w进行更新,评估动作网络的学习目标是生成的驾驶动作使得Q(Sj,aj|θ)最大,更新网络参数w的损失公式为:
Figure BDA0002966171720000061
步骤63:在固定的时间间隔内将评估值网络与评估动作网络的参数(θ,w)利用软更新的方法更新到目标动作网络与目标值网络的参数(θ′,w′),参数更新公式如下:
w′←τ*w+(1-τ)*w′
θ′←τ*θ+(1-τ)*θ′
其中,τ为更新权重因子。
本发明提供的一种基于注意力模型和深度强化学习的无人车行驶决策方法,其有益效果是:
1、在感知模块中将自注意力模型和长短时记忆网络做了有效结合,且相对于原始的自注意力模型,本发明将卷积网络嵌入到了自注意力模型中,并引入相对位置编码的方法,构建了本发明所使用的自注意力模型;通过本发明所设计的自注意力模型可以从车辆原始观测图像中提取出道路中其他车辆的位置信息,并通过增加车辆在图像中像素位置的权重实现障碍物特征提取。相对于原始的自注意力模型,本发明所使用的模型在保持原自注意力模型的特征提取的全局性的基础上,通过引入卷积网络对图像的局部特征进行提取,强化了近邻像素之间的关联性,以达到强化注意力特征提取的目的。
2、除了考虑图像像素内部之间的关联性,本发明通过引入长短时记忆网络,考虑图像在时间序列上的关联性,使得最终提取出的注意力特征兼具全局性和时序性。
3、本发明决策模块通过深度确定性策略梯度算法实现,直接以感知模块的输出特征作为输入,经过深度确定性策略梯度算法后得到目标动作和值函数;确定性策略相对于随机策略的优势在于,对于自动驾驶等具有高维动作空间的任务,通过深度确定性策略梯度算法可以直接得到最大概率执行的动作,而不需通过大量样本计算出所有动作的概率再进行选择,可以有效提高算法效率。
4、通过利用优先经验回放的方法,从经验池D中按照优先级顺序抽取数据进行训练,加快算法收敛。
综上所述,本发明通过多种方法的结合,有效的提高了算法的效率,能够在复杂的驾驶环境中做出安全合理的行为决策,实现安全行车。
附图说明
图1为本发明基于注意力模型和深度强化学习的无人车行驶决策方法结构示意图;
图2为本发明基于自注意力模型和长短时记忆网络实现的感知模块示意图;
图3为本发明基于深度确定性策略梯度算法实现的决策模块示意图;
图4为本发明中自注意力模型示意图;
图5为本发明中感知模块所使用的自动编码器模型示意图;
图6为本发明系统的动作网络结构示意图;
图7为本发明系统的值网络结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
如图1所示,基于注意力模型和深度强化学习的无人车行驶决策方法包含感知模块和决策模块以及经验池D等部分。通过从驾驶环境中获得观测数据输入到感知模块中,得到低维的特征信息;然后将低维特征信息输入到决策模块中得到动作策略,同时从环境中返回下一时刻的状态和奖励,并将获得数据存入经验池中;通过决策模块做出的动作决策越好,则从环境中反馈的奖励越大;否则,奖励越小;决策模块利用深度确定性策略梯度算法进行策略学习,目标是使得累计奖励最大。本发明中,需要完成的自动驾驶任务是尽可能以目标速度安全的在道路上行驶尽可能远的距离。
本发明需要完成的自动驾驶任务是尽可能以目标速度安全的在道路上行驶尽可能远的距离,在本发明的一个实施例中,自动驾驶车辆设置的目标速度为Vdesired,车辆真实速度为V,设置车辆偏移当前车道距离为D,设置偏移距离的阈值Dthred=2.0,判断车辆是否发生碰撞,若发生碰撞Rcollision=-1,否则为0,通过距离传感器获得自动驾驶车辆前方与障碍物的距离,设为Dobstacle,根据任务需求,设置各部分奖励函数公式如下:
Figure BDA0002966171720000071
Figure BDA0002966171720000072
Figure BDA0002966171720000073
Figure BDA0002966171720000081
根据公式(1)到公式(4)得到总的奖励函数r为:
Figure BDA0002966171720000082
在本发明的一个实施例中,基于注意力模型和深度强化学习的无人车行驶决策方法的实施过程包括以下步骤:
S1、初始化自动驾驶环境,并从自动驾驶环境中收集观测数据集Dataset,观测数据集Dataset中的数据由车辆前摄像头获取的图像组成,包含训练集和测试集,其中训练集为36k张图像,测试集为10k张图像。
S2、对获得的观测数据集Dataset进行预处理,将数据集中的图像通过下采样的方式统一为64*64*3大小的RGB图像。
S3、通过搭建自注意力模型和长短时记忆网络对感知模块进行建模,构建的感知模块如图2所示,感知模块由自注意力模型和长短时记忆网络组成,利用自注意力模型可以有效的提取出观测数据中道路上的其他车辆的位置信息,即障碍物信息,有效提高自动驾驶决策过程的安全性;同时,由于自动驾驶环境是动态变化的,通过长短时记忆网络获取观测序列在时间上的关联性,可以有效提取道路中障碍物的位置变化信息,进一步提高自动驾驶决策的准确性和可靠性。
S3.1、构建自注意力模型,如图4所示,分别构建三个卷积核大小为1*1的卷积网络,对应的网络参数分别为(wQ,wK,wV),经过三个卷积网络后,观测序列X={x1,x2,...,xt}中的观测数据x被编码为Q=xwQ,K=xwK,V=xwV三种特征矩阵,其中
Figure BDA0002966171720000083
Figure BDA0002966171720000084
H、W分别表示特征矩阵的高和宽,dk表示特征矩阵K的通道数,利用相对位置编码的方法,得到特征矩阵K中像素j相对于像素i的相对位置编码如下:
Figure BDA0002966171720000085
由公式(6)计算任意两个像素之间的相对位置关系,最终得到相对位置编码矩阵
Figure BDA0002966171720000086
且公式(6)中通过网络训练可得到
Figure BDA0002966171720000087
的取值,并限制相对距离的最大值为k,即考虑像素j与像素i之间的距离在范围k内是有意义的,此外,
Figure BDA0002966171720000088
AK的上标K表示特征矩阵K的相对位置编码,因而相对位置编码矩阵AK的维度为特征矩阵K的长和宽的乘积。
引入相对位置编码后,进行自注意力特征计算,计算公式如下:
Figure BDA0002966171720000091
其中,T表示转置,dk为特征矩阵K的通道数;
本发明在自注意力模型中另外添加一个卷积核大小为1*1的卷积层,观测序列X={x1,x2,...,xt}经过该卷积层后得到图像的局部特征,表示为:Sconv=Conv(X)。
将由自注意力模型得到的全局特征Ssa和由卷积网络得到的局部特征Sconv沿着通道的维度进行合并,得到增强后的注意力特征S=Concat[Ssa,Sconv]。
S3.2、构建长短时记忆网络,设置长短时记忆网络LSTM中输入序列长度l=5,设置隐藏层数目为1,输出通道数为128,在本发明的一个实施例中,如图2所示,构建5个如S3.1所述的并行自注意力模型对输入长度为l=5的观测序列Xl=5={xt-l+1,...,xt-1,xt}进行处理,得到自注意力特征序列St={st-l+1,...,st-1,st},将自注意力特征序列St输入到长短时记忆网络LSTM中,最终得到t时刻的输出的低维数据特征ot。长短时记忆网络LSTM内部工作过程大体可以分为四个部分:遗忘门、输入门、细胞状态更新、输出门,具体实现步骤如下:
S3.2.1、遗忘门:控制LSTM网络以一定概率选择是否遗忘掉上一层细胞状态Ct-1;通过输入上一序列的隐藏状态ht-1和当前序列数据st,经过激活函数σ之后,得到遗忘门的输出ft,具体计算公式如下:
ft=σ(Wf·[ht-1,st]+bf)
其中,Wf,bf为遗忘门的网络参数。
S3.2.2、输入门:对当前序列位置的输入st进行处理,本发明将自注意力模型的输出序列注意力特征S=Concat[Ssa,Sconv]作为LSTM网络的输入,LSTM网络中,输入门的数据包括两个部分:一部分是利用σ激活函数得到输出it;另一部分是利用tanh激活函数得到输出
Figure BDA0002966171720000092
具体实现方式如下:
Figure BDA0002966171720000093
其中,Wi,Wc,bi,bc均为输入门的网络参数。
S3.2.3、细胞状态更新:更新当前序列位置下的细胞状态Ct,通过遗忘门和输入门的输出更新细胞状态,具体计算公式如下:
Figure BDA0002966171720000101
S3.2.4、输出门:输入序列S经过LSTM网络的内部计算后,最终通过输出门输出包含两个部分:一部分是得到当前时刻t的隐藏状态ht,用于作为上一序列的隐藏状态进行下一次的序列计算;另一部分是经过激活函数σ后得到最终的输出结果ot,ot即为本发明中感知模块提取到的低维数据特征,具体计算公式如下:
Figure BDA0002966171720000102
其中,Wo,bo为输出门的参数。
S3.3、利用自动编码器对感知模块进行训练,构建如图5所示的自动编码器模型,自动编码器包含编码过程和解码过程,其中编码部分为本发明所使用的感知模块,编码器输出的特征即为感知模块的输出低维数据特征ot;解码器由反卷积网络组成,输出结果为反向观测序列数值x′t,模型训练输入长度为5的观测序列Xl=5={xt-l+1,...,xt-1,xt},训练所使用的数据标签为t时刻的观测数据xt;通过计算由解码器复原的x′t和观测数据xt之间的误差关系,对自动编码器模型进行训练,损失函数如下所示:
Figure BDA0002966171720000103
S3.4、利用观测数据集Dataset对自动编码器模型进行训练,输入数据为64*64*3大小的RGB图像,数据集包含36k张图像,设置训练回合为100。
S3.5、通过测试集对训练得到的自动编码器模型进行评估,保存训练好的自动编码器模型的参数,最终训练的得到的编码过程即为感知模块,用于自动驾驶决策系统中对观测数据进行特征提取,并将提取的特征ot作为决策模块的输入。
S4、利用卷积网络和全连接网络搭建决策模块,所述决策模块基于深度确定性策略算法,如图3所示,通过构建动作网络Actor获得驾驶策略,通过值网络Critic获得Q值,利用深度确定性策略算法以最大化环境中获得的奖励为目标,进行策略学习。所述决策模块包括动作网络Actor和值网络Critic,其中,所述动作网络Actor包括评估动作网络(evalActor)和目标动作网络(targetActor),所述评估动作网络的输出结果表示为μ(s|w),网络参数为w,所述目标动作网络的输出结果表示为μ′(s|w′),网络参数为w′;所述值网络Critic包括评估值网络(eval Critic)和目标值网络(target Critic),所述评估值网络的输出结果表示为Q(s,a|θ),网络参数为θ;所述目标值网络的输出结果表示为Q′(s,a|θ′),网络参数为θ′。所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互,实现评估动作网络和评估值网络参数训练,并在固定间隔时间内,通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。四个网络的具体功能分别是:(1)evalActor:负责根据当前状态St选择当前动作at,用于与环境交互产生下一时刻的状态St+1和对应奖励rt;同时更新evalActor的网络参数w;(2)targetActor:从经验池D中采样下一时刻状态,然后得到下一时刻的最优动作;同时,每隔一定时间利用软更新的方法从evalActor中复制网络参数给自身w′;(3)eval Critic:通过当前状态和当前动作计算评估Q值,同时负责更新eval Critic的网络参数θ;(4)targetCritic:通过下一时刻的状态和下一时刻的动作计算目标Q值,同时每隔一定时间利用软更新的方法从eval Critic中复制网络参数给自身θ′。
S4.1、如图6所示,evalActor和target Critic网络结构相同,通过三层卷积之后,再经过两层全连接层后再经过tanh激活函数后,输出维度为3的动作a,每个维度分别表示方向盘转角(steer)、油门(accelerator)、刹车(brake)。
S4.2、如图7所示,eval Critic和target Critic网络结构相同,输入状态经过三层卷积后,数据展开后和输入动作a拼接后输入到两层全连接层最终输出维度为1的Q值。
S5、初始化evalActor、eval Critic、targetActor和target Critic网络,并设置为训练模式。
S6、初始化自动编码器模型,并将S3.5保存的训练模型导入到自动编码器模型中,并只使用编码器部分,并设置为评估模式。
S7、初始化经验池D和求和树Sumtree。
S8、初始化自动驾驶环境,设置观测序列为X={x1,x2,...,xt}.
S9、从自动驾驶环境中获得观测序列X={x1,x2,...,xt}输入到训练好的感知模块中,得到当前时刻的低维数据特征ot
S10、将当前时刻的ot作为当前状态St=ot输入到evalActor网络中,得到当前最大概率执行的驾驶动作at,同时为了增加车辆的探索能力,对生成的动作加入高斯噪声,即at=μw(St)+N,其中,N表示高斯噪声,实施例中可设置为均值为0,方差为0.1的高斯噪声,μw表示自动驾驶车辆控制策略。
S11、在自动驾驶环境中执行由evalActor网络估计得到的动作驾驶at,从驾驶环境中反馈得到下一时刻的状态St+1和根据公式(5)计算得到的奖励rt,同时判断此时是否终止自动驾驶,终止驾驶,则done为真,否则为假。
S12、将数据(St,at,rt,St+1,done)存入经验池D中,同时初始化Sumtree中数据的优先级为pt=1。
S13、从经验池D中根据优先级抽取N个数据样本{Sj,aj,rj,S′j,donej},j=1,2,...,m,将N个样本输入到targetCritic网络中,得到yj为:
Figure BDA0002966171720000121
其中,yj表示在状态Sj和动作aj条件下的目标Q值,可通过Bellman方程得到,rj表示执行动作aj的奖励,Q′(S′j,μ′(S′j|w′)|θ′)表示在状态S′j和动作a′j=μ′(S′j|w′)条件下的目标值网络输出的Q值,其中μ′(S′j|w′)表示目标动作网络的输出结果,w′、θ′分别表示目标动作网络和目标值网络的参数,γ为折扣因子,反应对未来奖励的关注程度,本实例中,设置γ=0.95。
S14、将从经验池D中抽取的N个样本{Sj,aj,rj,S′j,donej},j=1,2,...,m输入evalCritic网络中,得到评估值网络的输出结果为Q(Sj,aj|θ)。
S15、更新eval Critic网络,eval Critic网络的学习目标是使得评估Q值Q(Sj,aj|θ)逼近于yj,则更新eval Critic网络参数θ的损失公式为:
Figure BDA0002966171720000122
通过对损失函数L(θ)求导,利用梯度下降的方法对eval Critic网络进行方向传播,更新参数θ。
S16、更新evalActor网络,evalActor网络的学习目标是生成的动作策略使得评估值网络的输出结果Q(Sj,aj|θ)最大,则更新evalActor网络参数w的损失公式为:
Figure BDA0002966171720000123
通过对损失函数L(w)求导,利用梯度下降的方法对evalActor网络进行反向传播,更新参数w。
S17、计算TD损失,TD_error(Sj,aj)=yj-Q(Sj,aj|θ),根据计算得到的TD损失更新Sumtree中数据的优先级pj=TD_error(Sj,aj),并进行归一化处理作为数据抽取的概率,即
Figure BDA0002966171720000124
S18、在固定的时间间隔内将评估值网络与评估动作网络的参数(θ,w)利用软更新的方法更新到目标动作网络与目标值网络的参数(θ′,w′),本发明实施例中设置每隔2步,更新一次目标网络,设置更新权重因子τ=0.001,更新公式如下:
w′←τ*w+(1-τ)*w′
θ′←τ*θ+(1-τ)*θ′
其中,(w,θ)分别表示evalActor和eval Critic网络参数,(w′,θ′)分别表示targetActor和target Critic网络参数。
S19、更新当前状态为St=St+1,并判断done是否为真,为真则返回S8,重新初始化自动驾驶环境,进行新一轮的策略学习;为假则继续当前回合的学习,返回S10,将当前状态输入到evalActor中,进行下一步的策略学习。
循环S8到S19,设置训练10000回合,每间隔500回合保存一次evalActor、evalCritic、targetActor和target Critic的网络参数。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于注意力模型和深度强化学习的无人车行驶决策方法,其特征在于,该方法包括如下步骤:
步骤1,初始化自动驾驶环境,通过驾驶环境获取车辆前摄像头的观测序列;
步骤2,通过搭建自注意力模型和长短时记忆网络对感知模块进行建模,然后通过自动编码器模型对感知模块进行训练,利用训练好的感知模块提取出步骤1所述观测序列中的低维数据特征;
步骤3,利用卷积网络和全连接网络搭建决策模块,所述决策模块基于深度确定性策略算法,将步骤2得到的低维数据特征作为当前状态输入到决策模块中,决策模块根据输入的状态做出决策,并且得到当前最大概率执行的驾驶动作;
步骤4,车辆在自动驾驶环境中执行驾驶动作后,自动驾驶环境向决策模块反馈相应的奖励和下一时刻的状态,决策模块判断自动驾驶终止条件done是否被触发,同时将决策模块与自动驾驶环境交互的数据作为经验存入经验池D中;
步骤5,利用优先经验回放方法,从经验池D中按照经验优先级顺序抽取数据并进行训练;
步骤6,根据深度确定性策略算法计算决策模块的Q值,利用Q值对决策模块中的网络参数进行更新;
步骤7,更新当前状态,同时对自动驾驶终止条件done进行判断,若done为假则将当前状态输入到决策模块得到更新后的当前最大概率执行的驾驶动作,然后重复步骤4至步骤6,若done为真则返回步骤1开始新一轮的策略学习。
2.根据权利要求1所述的无人车行驶决策方法,其特征在于,步骤2中,提取出步骤1所述观测序列中的低维数据特征,具体包括:
步骤21,从步骤1所述观测序列中提取长度为l的连续序列,利用自注意力模型提取连续序列的全局特征序列;
步骤22,将步骤21得到的全局特征序列输入到长短时记忆网络中获得数据的时序特征,最终得到同时具有全局性和时序性的低维数据特征。
3.根据权利要求2所述的无人车行驶决策方法,其特征在于,步骤21中,感知模块利用自注意力模型提取连续序列Xt={xt-l+1,...,xt-1,xt}的全局特征序列St={st-l+1,...,st-1,st}的计算公式为:
Figure FDA0003757600190000021
其中,s为全局特征序列St={st-l+1,...,st-1,st}的任一特征值,x为连续序列Xt={xt-l+1,...,xt-1,xt}的任一观测值,
Figure FDA0003757600190000022
均为自注意力模型中的网络参数,经过矩阵相乘后得到三种特征矩阵为:
Figure FDA0003757600190000023
H、W分别表示特征矩阵的高和宽,dk表示特征矩阵K的通道数,T表示矩阵转置,Softmax函数表示将自注意力模型的输出结果映射到(0,1)之间。
4.根据权利要求2所述的无人车行驶决策方法,其特征在于,步骤22中所述长短时记忆网络的计算公式为:
Figure FDA0003757600190000024
其中,Wf,Wi,Wc,Wo,bf,bi,bc,bo均为网络参数;σ,tanh为长短时记忆网络中使用的激活函数。
5.根据权利要求3所述的无人车行驶决策方法,其特征在于,步骤21还包括在自注意力模型中引入卷积网络,所述自注意力模型通过相对位置编码的方法,对连续序列中的观测数据进行位置编码,得到全局注意力特征,所述卷积网络对连续序列中的观测数据进行卷积运算后得到局部特征,将所述全局注意力特征和所述局部特征相结合,得到所述全局特征序列,其中,所述全局注意力特征的运算公式为:
Figure FDA0003757600190000025
其中,Ssa为所述全局注意力特征,
Figure FDA0003757600190000031
表示相对位置编码矩阵,AK的上标K表示相对位置编码是针对特征矩阵K。
6.根据权利要求2所述的无人车行驶决策方法,其特征在于,步骤2中所述自动编码器模型包括编码过程和解码过程,所述编码过程对观测序列进行编码,得到低维数据特征,所述解码过程将所述低维数据特征利用反卷积网络进行解码,输出的数据序列为反向观测序列,步骤2中所述对感知模块进行训练,是利用均方差判断观测序列与解码输出的反向观测序列之间的误差关系,损失函数LAE表达式为:
Figure FDA0003757600190000032
其中,xi分别表示观测序列的值,x'i表示反向观测序列中与xi相对应的值,N表示从数据池中抽取的N个数据样本,AE表示自动编码器。
7.根据权利要求1所述的无人车行驶决策方法,其特征在于,所述决策模块包括动作网络Actor和值网络Critic,其中,所述动作网络Actor包括评估动作网络和目标动作网络,所述值网络Critic包括评估值网络和目标值网络,所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互,实现评估动作网络和评估值网络参数训练,并在固定间隔时间内,通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。
8.根据权利要求7所述的无人车行驶决策方法,其特征在于,步骤3具体还包括:将由感知模块获得的当前低维数据特征作为当前状态输入到评估动作网络中,得到自动驾驶车辆控制策略,根据自动驾驶车辆控制策略得到当前执行的驾驶动作,所述驾驶动作的表达式为:at=μw(St)+N,其中,μw表示自动驾驶车辆控制策略,St表示当前状态,N为高斯噪声。
9.根据权利要求7所述的无人车行驶决策方法,其特征在于,步骤5具体包括:
步骤51:将经验池D中的数据(St,at,rt,St+1,done)存入求和树Sumtree中,初始化数据的优先级为pt=1,其中,St、St+1分别表示当前状态和下一时刻状态,at表示当前执行的驾驶动作,rt表示执行动作at的奖励,done表示自动驾驶终止条件;
步骤52:从经验池D中根据优先级抽取N个数据样本{Sj,aj,rj,S′j,donej},j=1,2,...,m,并将N个数据样本输入到目标值网络中,得到:
Figure FDA0003757600190000041
其中,yj表示在状态Sj和动作aj条件下通过Bellman方程得到的目标Q值,rj表示执行动作aj的奖励,Q′(S′j,μ′(S′j|w′)|θ′)表示在状态S′j和动作a′j=μ′(S′j|w′)条件下的目标值网络输出的Q值,其中μ′(S′j|w′)表示目标动作网络的输出结果,w′、θ′分别表示目标动作网络和目标值网络的参数,γ为折扣因子;
步骤53:将从经验池D中抽取的N个样本{Sj,aj,rj,S′j,donej},j=1,2,...,m输入评估值网络中,得到评估值网络输出的Q值Q(Sj,aj|θ),其中θ为评估值网络的参数;
步骤54:计算数据的TD损失,计算公式如下:
TD_error(Sj,aj)=yj-Q(Sj,aj|θ)
步骤55:根据计算得到的TD损失更新求和树Sumtree中数据的优先级pj=TD_error(Sj,aj),并进行归一化处理作为数据抽取的概率,即
Figure FDA0003757600190000042
10.根据权利要求9所述的无人车行驶决策方法,其特征在于,步骤6具体包括:
步骤61:通过计算yj和Q(Sj,aj|θ)之间的平方差对评估值网络的参数θ进行更新,评估值网络的学习目标是使得评估值网络的输出结果Q(Sj,aj|θ)逼近于yj,更新网络参数θ的损失公式为:
Figure FDA0003757600190000043
步骤62:通过计算评估值网络的输出结果Q(Sj,aj|θ)对评估动作网络的参数w进行更新,评估动作网络的学习目标是生成的动作策略使得评估值网络的输出结果最大,更新网络参数w的损失公式为:
Figure FDA0003757600190000051
步骤63:在固定的时间间隔内将评估值网络与评估动作网络的参数(θ,w)利用软更新的方法更新到目标动作网络与目标值网络的参数(θ′,w′),参数更新公式如下:
w′←τ*w+(1-τ)*w′
θ′←τ*θ+(1-τ)*θ′
其中,τ为更新权重因子。
CN202110251268.2A 2021-03-08 2021-03-08 基于注意力模型和深度强化学习的无人车行驶决策方法 Active CN112965499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110251268.2A CN112965499B (zh) 2021-03-08 2021-03-08 基于注意力模型和深度强化学习的无人车行驶决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110251268.2A CN112965499B (zh) 2021-03-08 2021-03-08 基于注意力模型和深度强化学习的无人车行驶决策方法

Publications (2)

Publication Number Publication Date
CN112965499A CN112965499A (zh) 2021-06-15
CN112965499B true CN112965499B (zh) 2022-11-01

Family

ID=76277137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110251268.2A Active CN112965499B (zh) 2021-03-08 2021-03-08 基于注意力模型和深度强化学习的无人车行驶决策方法

Country Status (1)

Country Link
CN (1) CN112965499B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113419424B (zh) * 2021-07-05 2023-08-18 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN113657207B (zh) * 2021-07-29 2023-08-08 威胜信息技术股份有限公司 一种云-边协同配电站火光智能监测方法及系统
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113657292A (zh) * 2021-08-19 2021-11-16 东南大学 一种基于深度强化学习的车辆自动循迹驾驶方法
CN113741464B (zh) * 2021-09-07 2022-10-21 电子科技大学 一种基于时空数据强化学习的自动驾驶速度控制框架
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114137967B (zh) * 2021-11-23 2023-12-15 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114282645B (zh) * 2021-11-24 2023-04-21 杭州电子科技大学 一种基于dqn的时空众包任务分配方法
CN113928321B (zh) * 2021-11-24 2022-08-26 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN114371729B (zh) * 2021-12-22 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN114423061B (zh) * 2022-01-20 2024-05-07 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114802307B (zh) * 2022-05-23 2023-05-05 哈尔滨工业大学 自动与人工混合驾驶场景下的智能车辆横向控制方法
CN114708568B (zh) * 2022-06-07 2022-10-04 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN115951587B (zh) * 2023-03-10 2023-07-14 苏州浪潮智能科技有限公司 自动驾驶控制方法、装置、设备、介质及自动驾驶车辆
CN116592883B (zh) * 2023-04-25 2024-04-30 三峡大学 一种基于注意力和循环ppo实现的导航决策方法
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116661465B (zh) * 2023-07-04 2023-10-31 无锡八英里电子科技有限公司 一种基于时序分析与多传感器融合的机器人自动行驶方法
CN116805353B (zh) * 2023-08-21 2023-10-31 成都中轨轨道设备有限公司 跨行业通用的智能机器视觉感知方法
CN116890881B (zh) * 2023-09-08 2023-12-08 摩尔线程智能科技(北京)有限责任公司 一种车辆变道决策生成方法及装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
US10573134B1 (en) * 2015-07-25 2020-02-25 Gary M. Zalewski Machine learning methods and system for tracking label coded items in a retail store for cashier-less transactions
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111137292A (zh) * 2018-11-01 2020-05-12 通用汽车环球科技运作有限责任公司 用于控制自主车辆的分层车道变换策略的基于空间和时间注意力的深度强化学习
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112215337A (zh) * 2020-09-30 2021-01-12 江苏大学 一种基于环境注意力神经网络模型的车辆轨迹预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573134B1 (en) * 2015-07-25 2020-02-25 Gary M. Zalewski Machine learning methods and system for tracking label coded items in a retail store for cashier-less transactions
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN111137292A (zh) * 2018-11-01 2020-05-12 通用汽车环球科技运作有限责任公司 用于控制自主车辆的分层车道变换策略的基于空间和时间注意力的深度强化学习
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112215337A (zh) * 2020-09-30 2021-01-12 江苏大学 一种基于环境注意力神经网络模型的车辆轨迹预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Deep Reinforcement Learning Algorithm with Expert;Kai Liu etal;《Proceedings of the 37th Chinese Control Conference》;20181008;第2944-2949页 *
基于深度视觉注意神经网络的端到端自动驾驶模型;胡学敏等;《计算机应用》;20200609(第7期);第1926-1931页 *

Also Published As

Publication number Publication date
CN112965499A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112965499B (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112215337B (zh) 一种基于环境注意力神经网络模型的车辆轨迹预测方法
CN108909624B (zh) 一种基于单目视觉的实时障碍物检测和定位方法
CN111311945B (zh) 一种融合视觉和传感器信息的驾驶决策系统及方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
EP3278317B1 (en) Method and electronic device
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN111605565A (zh) 基于深度强化学习的自动驾驶行为决策方法
KR20180051335A (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN112487954B (zh) 一种面向平面交叉口的行人过街行为预测方法
Rekabdar et al. Dilated convolutional neural network for predicting driver's activity
CN116595871A (zh) 基于动态时空交互图的车辆轨迹预测建模方法与装置
CN117141517A (zh) 数据驱动与知识引导相结合的车辆轨迹预测模型构建方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN115071762A (zh) 面向城市场景下行人轨迹预测方法、模型及存储介质
CN116540731A (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
CN113435356B (zh) 一种克服观察噪声与感知不确定性的轨迹预测方法
CN111580526A (zh) 面向固定车辆编队场景的协同驾驶方法
CN117141518A (zh) 一种基于意图感知时空注意网络的车辆轨迹预测方法
CN113561995A (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
Shi et al. Motion planning for unmanned vehicle based on hybrid deep learning
Zhang et al. A convolutional neural network method for self-driving cars
CN111160089A (zh) 一种基于不同车辆类型的轨迹预测系统及方法
CN116501820A (zh) 车辆轨迹预测方法、装置、设备及存储介质
CN116258242A (zh) 一种自动驾驶车辆反应式轨迹预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant