CN113734170B - 一种基于深度q学习的自动驾驶换道决策方法 - Google Patents

一种基于深度q学习的自动驾驶换道决策方法 Download PDF

Info

Publication number
CN113734170B
CN113734170B CN202110954994.0A CN202110954994A CN113734170B CN 113734170 B CN113734170 B CN 113734170B CN 202110954994 A CN202110954994 A CN 202110954994A CN 113734170 B CN113734170 B CN 113734170B
Authority
CN
China
Prior art keywords
lane
value
vehicle
action
automatic driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110954994.0A
Other languages
English (en)
Other versions
CN113734170A (zh
Inventor
崔建勋
要甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110954994.0A priority Critical patent/CN113734170B/zh
Publication of CN113734170A publication Critical patent/CN113734170A/zh
Application granted granted Critical
Publication of CN113734170B publication Critical patent/CN113734170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Transportation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于深度Q学习的自动驾驶换道决策方法,属于自动驾驶技术领域。解决了现有自动驾驶车辆基于强化学习进行换道决策,由于驾驶环境状态复杂,导致学习的效率很低的问题。本发明采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;将相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将Q值估计值最大的换道动作作为下一时刻的换道动作。本发明适用于自动驾驶换道。

Description

一种基于深度Q学习的自动驾驶换道决策方法
技术领域
本发明属于自动驾驶技术领域。
背景技术
换道决策是绝大多数驾驶场景下的基本行为,例如车辆合流、车辆分流、超车、环形 交叉口路口通行等等,因此建立自动驾驶车辆换道决策的有效方法是实现各种驾驶场景下 的自动驾驶必备、重要且复杂的功能。
传统的自动驾驶换道决策方法通常是基于规则的,即根据专家经验和行业知识,针对 特定的换道场景,指定相应的换道动作。这种方法过于“僵硬”,难以应用于未知情况下的 换道决策,导致决策方法难以泛化的问题。近年来,研究人员普遍重视基于强化学习,尤其是深度强化学习的自动驾驶换道决策的方法。强化学习能够允许自动驾驶车辆不断的与 环境互动,进而收集经验,然后不断提高自身的换道决策水平。这种方式固然有非常好的 泛化能力,能够处理各种未知的驾驶场景,但是其根本的问题在于:(1)无法完全保证自动驾驶换道决策行为的安全。这是因为,强化学习中是通过指定奖励函数来促进决策水平的提升,而针对换道通常的奖励函数是发生碰撞时,给以一个很大的负奖励,从而尽量避免自动驾驶车辆换道引发安全问题,但尽管如此,无法从根本上避免事故;(2)强化学习 的精髓在于自动驾驶车辆与环境不断的互动,然后收集经验,但是由于驾驶环境状态的复 杂性(状态空间复杂),导致学习的效率很低。
发明内容
本发明目的是为了解决现有自动驾驶车辆基于强化学习进行换道决策,由于驾驶环境 状态复杂,导致学习的效率很低,自安全性差的问题,提供了一种基于深度Q学习的自动 驾驶换道决策方法。
本发明所述一种基于深度Q学习的自动驾驶换道决策方法,包括:
步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速 度;
步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训 练的全连接神经网络,获得所有换道动作的Q值估计值;
步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全 动作集合的换道动作;
步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。
进一步地,本发明中,步骤二中所述的环境向量包括同向车道的环境车辆与目标自动 驾驶车辆的相对位置和相对速度,当环境为同向为三车道时表示为:
s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]
其中,s为环境向量,dr,vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对 速度,其角标第一个字母l,c,r分别表示左侧车道、当前车道和右侧车道,第二个字母q, f分别表示前方车辆、后方车辆;vRL表示目标自动驾驶车辆的速度。
进一步地,本发明中,步骤二中所述的换道动包括向左换道、保持当前车道和向右换 道。
进一步地,本发明中,骤二中,获得所有换道动作的Q值估计值方法为:
利用奖励函数对驾驶速度进行拟合;
所述奖励函数为:rt=-|vRL,t-vdes,t|
当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期 望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;
利用奖励函数计算当前时刻的Q值估计值yt
其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向量, θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q值 的估计值。
进一步地,本发明中,当前时刻安全动作集合为:
其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的安 全行驶空间,/>为自动驾驶车辆左侧车道在时刻t的安全行驶空间,/>为自动驾驶车辆右 侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a表 示当前时刻的换道动作,A为换道动作集合;
A={a1=向左换道,a2=保持当前车道,a3=向右换道}
[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间。
进一步地,本发明中,自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车 辆左侧车道在时刻t的安全行驶空间/>和自动驾驶车辆右侧车道在时刻t的安全行驶空间/>的获取方法相同,自动驾驶车辆当前车道在时刻t的安全行驶空间/>的计算公式为:
F0 t={pf(t)+Δsafe,f<P(t)<Ph(t)-Δsafe,h}
计算实现,其中,P(t)表示目标车辆在时刻t的位置,pf(t)为目标车辆前方车辆在时 刻t的位置,Ph(t)为目标车辆的后方车辆在时刻t的位置;Δsafe,f为行车过程中最少需要的 前车安全距离,Δsafe,h为行车过程中最少需要的后车安全距离。
进一步地,本发明中,步骤二中全连接神经网络的训练过程为:
步骤二中全连接神经网络的训练过程为:
步骤二一、初始化全连接神经网络参数θ0,获得初始Q估值网络Q0,利用初始Q估 值网络Q0进行实际驾驶环境的自动驾驶训练,获得样本集合D0={s1,a1,r1,s2,a2,r2,....};
步骤二二、计算样本集合D0中的所有样本的Q值估计值yt
步骤二三、选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标 函数最小化,对Q估值网络Q0进行一次参数更新,获得Q估值网络Q01
步骤二四、在样本集合D0中再选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标函数最小化,对Q估值网络Q01进行再一次参数更新;获得Q估值网 络Q02;直至样本集合D0中所有样本的未来收益估计均代入目标函数,最终获得Q估值网 络Q0n,完成Q估值网络Q0的一轮更新,将Q估值网络Q0n作为Q估值网络Q1;n为样本 集合D0中样本的个数;
步骤二五、利用Q估值网络Q1进行实际驾驶环境的自动驾驶训练,获得样本集合 D1={s1,a1,r1,s2,a2,r2,....},用样本集合D1替换D0;返回执行步骤二二,直至第N次获得Q 估值网络Q1,完成对全连接神经网络的训练,其中,N大于10。
进一步地,本发明中,步骤二三中所述的目标函数为:
M=(yj-Qm(sj,aj;θm))2
其中,M为目标函数值,θm表示当前Q估值网络的参数集合,sj表示样本集合中第j个样本中的状态,aj样本集合中第j个样本中的动作,yj表示第j个样本的未来收益估计 即Q值估计值,Qm表示当前Q估值网络,其中,0≤m≤N。
进一步地,本发明中,全连接神经网络包括输入层、两个隐藏层和输出层,所述输入 层用于输入环境向量,输出层输出换道动作的Q值估计值,每个隐藏层均包含100个神经元。
本发明所述方法采用了深度Q学习来估计任意状态-动作对下的未来累积收益,从而决 定当前状态下的最佳决策动作;然后深度Q学习所决定的最佳动作通过安全性检验后才能 被真正执行,这个安全性检验步骤确保了决策执行的安全性;最后,将自动驾驶的状态空 间抽象为较少维度的向量(对于3车道情况,仅需要13维向量),即满足自动驾驶换道决策的需要,同时又极大简化了状态空间的表征,从而加速了学习的效率。
附图说明
图1是本发明采用全连接神经网络获取换道动作的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组 合。
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种基于深度Q学 习的自动驾驶换道决策方法,包括:
步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速 度;
步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训 练的全连接神经网络,获得所有换道动作的Q值估计值;
步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全 动作集合的换道动作;
步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。
本发明所发明方法总体架构如图1所示。最左侧为决策所需要的环境状态输入,包括 了以目标自动驾驶车辆为参照的:(1)左侧车道前后车辆信息;(2)当前车道前后车辆信息;(3)右侧车道前后车辆信息。这些信息决定了目标自动驾驶车辆是否可以以及如何完成一次换车道行为。这些信息全部采用向量的方式来表征,反映相对位置、相对速度等, 这相对于直接输入传感器数据(例如图像、3D点云等)要极大的节省状态表征的空间和开 支,因此可以提高后续强化学习的效率。接下来采用带有两个隐藏层的全连接神经网络来 拟合Q值函数,每个隐藏层均有100个神经元,如果当前驾驶情景为3个车道,那么输入 为13个神经元,输出层代表了三个对应动作的Q值估计;接下来,采用Argmax函数,求 取当前状态下Q值最大的换道动作,作为输出动作,最终执行该动作。
进一步地,本发明中,步骤二中所述的环境向量包括同向车道的环境车辆与目标自动 驾驶车辆的相对位置和相对速度,当环境为同向为三车道时表示为:
s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]
其中,s为环境向量,dr,vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对 速度,其角标第一个字母l,c,r分别表示左侧车道、当前车道和右侧车道,第二个字母q, f分别表示前方车辆、后方车辆;vRL表示目标自动驾驶车辆的速度。
本实施方式所述的输入的状态要能够反映目标自动驾驶车辆周边环境车辆的相关信息, 一个自动驾驶车辆及其周边环境车辆所构成的特定驾驶场景,以3车道为例,环境状态向 量包含了13个维度。
进一步地,本发明中,步骤二中所述的换道动包括向左换道、保持当前车道和向右换 道。
进一步地,本发明中,步骤二中,获得所有换道动作的Q值估计值方法为:
利用奖励函数对驾驶速度进行拟合;
所述奖励函数为:rt=-|vRL,t-vdes,t|
当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期 望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;
利用奖励函数计算当前时刻的Q值估计值yt
其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向 量,θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q 值的估计值。
进一步地,本发明中,当前时刻安全动作集合为:
其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的 安全行驶空间,/>为自动驾驶车辆左侧车道在时刻t的安全行驶空间,/>为自动驾驶车辆 右侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a 表示当前时刻的换道动作,A为换道动作集合;
A={a1=向左换道,a2=保持当前车道,a3=向右换道}
[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间。
当换道动作属于所述安全动作集合就保证了动作a的执行过程中,自动驾驶车辆始终出 于安全形式区域中,不会发生碰撞事故。
进一步地,本发明中,自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车 辆左侧车道在时刻t的安全行驶空间/>和自动驾驶车辆右侧车道在时刻t的安全行驶空间/>的获取方法相同,自动驾驶车辆当前车道在时刻t的安全行驶空间/>的计算公式为:
F0 t={pf(t)+Δsafe,f<P(t)<Ph(t)-Δsafe,h}
计算实现,其中,P(t)表示目标车辆在时刻t的位置,pf(t)为目标车辆前方车辆在时 刻t的位置,Ph(t)为目标车辆的后方车辆在时刻t的位置;Δsafe,f为行车过程中最少需要 的前车安全距离,Δsafe,h为行车过程中最少需要的后车安全距离。
如图1所示,当输入状态通过Q估值网络,进而获得每个动作(3个离散动作)对应的Q值估计时,并不立即采取最大的Q值动作去执行,而是要通过安全性检验步骤进一步 筛选出安全的动作,在安全的动作集合(表示为Asafe(t))中选择Q值最大的动作去执行。
进一步地,本发明中,步骤二中全连接神经网络的训练过程为:
步骤二中全连接神经网络的训练过程为:
步骤二一、初始化全连接神经网络参数θ0,获得初始Q估值网络Q0,利用初始Q估 值网络Q0进行实际驾驶环境的自动驾驶训练,获得样本集合D0={s1,a1,r1,s2,a2,r2,....};
步骤二二、计算样本集合D0中的所有样本的Q值估计值yt
步骤二三、选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标 函数最小化,对Q估值网络Q0进行一次参数更新,获得Q估值网络Q01
步骤二四、在样本集合D0中再选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标函数最小化,对Q估值网络Q01进行再一次参数更新;获得Q估值网 络Q02;直至样本集合D0中所有样本的未来收益估计均代入目标函数,最终获得Q估值网 络Q0n,完成Q估值网络Q0的一轮更新,将Q估值网络Q0n作为Q估值网络Q1;n为样本 集合D0中样本的个数;
步骤二五、利用Q估值网络Q1进行实际驾驶环境的自动驾驶训练,获得样本集合 D1={s1,a1,r1,s2,a2,r2,....},用样本集合D1替换D0;返回执行步骤二二,直至第N次获得Q 估值网络Q1,完成对全连接神经网络的训练,其中,N大于10。
本实施方式所述训练的输入为收集一系列的状态-动作对,然后初始化Q网络参数θ。 接下来不断的从收集的状态-动作对集合样本中随机抽取一小批出来作为训练样本,对目标 函数(yj-Q(sj,aj;θ))2进行最小化,直到满足迭代终止标准。最终获得Q网络参数。
进一步地,本发明中,步骤二三中所述的目标函数为:
M=(yj-Qm(sj,aj;θm))2
其中,M为目标函数值,θm表示当前Q估值网络的参数集合,sj表示样本集合中第j个样本中的状态,aj样本集合中第j个样本中的动作,yj表示第j个样本的未来收益估计 即Q值估计值,Qm表示当前Q估值网络,其中,0≤m≤N。
进一步地,本发明中,全连接神经网络包括输入层、两个隐藏层和输出层,所述输入 层用于输入环境向量,输出层输出换道动作的Q值估计值,每个隐藏层均包含100个神经元。
本发明不仅采用了Q估值网络进行学习,同时全神经网络的输入不再是点云或图像数 据,而是经过处理的相对位置和相对速度数据,将目标自动驾驶车辆同向车道的(若是三 车道就包括左右车道和当前车道,若是单车道或双车道就根据实际情况而定)位置和速度 作为输入向量,所述输入向量是从左向右先前车再后车,然后相对位置排列在响度速度的 前面,全连接神经网络利用奖励函数计算Q值估计值,在通过安全动作集合对所有动作进 行筛选,再从安全动作集合中的动作中选择估值最大的动作作为下一时刻的策略动作,有效的保证了安全的前提下提高了自动驾驶的效率。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例 仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多 修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范 围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要 求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (4)

1.一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,包括:
步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;
步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;
步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;
当前时刻安全动作集合为:
其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的安全行驶空间,Fl t为自动驾驶车辆左侧车道在时刻t的安全行驶空间,/>为自动驾驶车辆右侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a表示当前时刻的换道动作,A为换道动作集合,
A={a1=向左换道,a2=保持当前车道,a3=向右换道},[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间;
自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车辆左侧车道在时刻t的安全行驶空间Fl t和自动驾驶车辆右侧车道在时刻t的安全行驶空间/>的获取方法相同,自动驾驶车辆当前车道在时刻t的安全行驶空间/>的计算公式为:
F0 t={pf(t)+Δsafe,f<P(t)<Ph(t)-Δsafe,h}
计算实现,其中,P(t)表示目标车辆在时刻t的位置,pf(t)为目标车辆前方车辆在时刻t的位置,Ph(t)为目标车辆的后方车辆在时刻t的位置;Δsafe,f为行车过程中最少需要的前车安全距离,Δsafe,h为行车过程中最少需要的后车安全距离;
步骤二中全连接神经网络的训练过程为:
步骤二一、初始化全连接神经网络参数θ0,获得初始Q估值网络Q0,利用初始Q估值网络Q0进行实际驾驶环境的自动驾驶训练,获得样本集合D0={s1,a1,r1,s2,a2,r2,....};
步骤二二、计算样本集合D0中的所有样本的Q值估计值yt
步骤二三、选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标函数最小化,对Q估值网络Q0进行一次参数更新,获得Q估值网络Q01
步骤二四、在样本集合D0中再选取一个样本的Q值估计值yt代入目标函数,并利用梯度下降算法对目标函数最小化,对Q估值网络Q01进行再一次参数更新;获得Q估值网络Q02;直至样本集合D0中所有样本的未来收益估计均代入目标函数,最终获得Q估值网络Q0n,完成Q估值网络Q0的一轮更新,将Q估值网络Q0n作为Q估值网络Q1;n为样本集合D0中样本的个数;
步骤二五、利用Q估值网络Q1进行实际驾驶环境的自动驾驶训练,获得样本集合D1={s1,a1,r1,s2,a2,r2,....},用样本集合D1替换D0;返回执行步骤二二,直至第N次获得Q估值网络Q1,完成对全连接神经网络的训练,其中,N大于10;
步骤二三中所述的目标函数为:
M=(yj-Qm(sj,aj;θm))2
其中,M为目标函数值,θm表示当前Q估值网络的参数集合,sj表示样本集合中第j个样本中的状态,aj样本集合中第j个样本中的动作,yj表示第j个样本的未来收益估计即Q值估计值,Qm表示当前Q估值网络,其中,0≤m≤N;
步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。
2.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。
3.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,骤二中,获得所有换道动作的Q值估计值方法为:
利用奖励函数对驾驶速度进行拟合;
所述奖励函数为:rt=-|vRL,t-vdes,t|
当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;
利用奖励函数计算当前时刻的Q值估计值yt
其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向量,θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q值的估计值。
4.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,全连接神经网络包括输入层、两个隐藏层和输出层,所述输入层用于输入环境向量,输出层输出换道动作的Q值估计值,每个隐藏层均包含100个神经元。
CN202110954994.0A 2021-08-19 2021-08-19 一种基于深度q学习的自动驾驶换道决策方法 Active CN113734170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954994.0A CN113734170B (zh) 2021-08-19 2021-08-19 一种基于深度q学习的自动驾驶换道决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954994.0A CN113734170B (zh) 2021-08-19 2021-08-19 一种基于深度q学习的自动驾驶换道决策方法

Publications (2)

Publication Number Publication Date
CN113734170A CN113734170A (zh) 2021-12-03
CN113734170B true CN113734170B (zh) 2023-10-24

Family

ID=78731778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954994.0A Active CN113734170B (zh) 2021-08-19 2021-08-19 一种基于深度q学习的自动驾驶换道决策方法

Country Status (1)

Country Link
CN (1) CN113734170B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111473794A (zh) * 2020-04-01 2020-07-31 北京理工大学 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN111731326A (zh) * 2020-07-02 2020-10-02 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112046484A (zh) * 2020-09-21 2020-12-08 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113264043A (zh) * 2021-05-17 2021-08-17 北京工业大学 基于深度强化学习的无人驾驶分层运动决策控制方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN111473794A (zh) * 2020-04-01 2020-07-31 北京理工大学 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN111731326A (zh) * 2020-07-02 2020-10-02 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112046484A (zh) * 2020-09-21 2020-12-08 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113264043A (zh) * 2021-05-17 2021-08-17 北京工业大学 基于深度强化学习的无人驾驶分层运动决策控制方法

Also Published As

Publication number Publication date
CN113734170A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
US20230280702A1 (en) Hybrid reinforcement learning for autonomous driving
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
JP7287707B2 (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
CN109109863B (zh) 智能设备及其控制方法、装置
US9053433B2 (en) Assisting vehicle guidance over terrain
CN105034986B (zh) 一种驾驶员转向特性在线辨识方法及装置
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
Aradi et al. Policy gradient based reinforcement learning approach for autonomous highway driving
CN115578876A (zh) 一种车辆的自动驾驶方法、系统、设备及存储介质
WO2023231569A1 (zh) 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
CN112141098B (zh) 一种智能驾驶汽车避障决策方法及装置
EP3686842B1 (en) Learning method, learning device, testing method and testing device
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN113561995B (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
Bicer et al. Sample efficient interactive end-to-end deep learning for self-driving cars with selective multi-class safe dataset aggregation
CN112556682B (zh) 一种水下复合传感器目标自动检测算法
CN113734170B (zh) 一种基于深度q学习的自动驾驶换道决策方法
CN117585017A (zh) 一种自动驾驶车辆换道决策方法、装置、设备及存储介质
CN116300944A (zh) 基于改进Double DQN的自动驾驶决策方法及系统
CN116653957A (zh) 一种变速变道方法、装置、设备及存储介质
Huang et al. Autonomous vehicle driving via deep deterministic policy gradient
US11794780B2 (en) Reward function for vehicles
Yao et al. Regional attention reinforcement learning for rapid object detection
CN113625718A (zh) 车辆的行驶路径规划方法
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant