CN108407805B - 一种基于dqn的车辆自动泊车方法 - Google Patents

一种基于dqn的车辆自动泊车方法 Download PDF

Info

Publication number
CN108407805B
CN108407805B CN201810277016.5A CN201810277016A CN108407805B CN 108407805 B CN108407805 B CN 108407805B CN 201810277016 A CN201810277016 A CN 201810277016A CN 108407805 B CN108407805 B CN 108407805B
Authority
CN
China
Prior art keywords
parking
vehicle
dqn
obi
ideal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810277016.5A
Other languages
English (en)
Other versions
CN108407805A (zh
Inventor
余伶俐
严孝鑫
周开军
邵玄雅
孔德成
况宗旭
魏亚东
金鸣岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810277016.5A priority Critical patent/CN108407805B/zh
Publication of CN108407805A publication Critical patent/CN108407805A/zh
Application granted granted Critical
Publication of CN108407805B publication Critical patent/CN108407805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/06Automatic manoeuvring for parking
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于DQN的车辆自动泊车方法,包括以下步骤:步骤一,获取当前时刻的车辆位置、障碍物信息及泊车位信息,并将车辆停到相对合理的泊车起始位置;步骤二,根据当前时刻的车辆位置、障碍物信息及泊车位信息,使用训练好的DQN计算期望车辆前轮摆角;步骤三,按照根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆;步骤四,更新当前时刻车辆位置,判断是否进入泊车位,如果到达泊车位则泊车结束,否则更新障碍物信息,返回步骤二重新计算车辆前轮摆角。该方法采用DQN计算期望车辆前轮摆角,能够自主学习相关参数,大大减少了泊车系统参数调试的工作;使系统有较好的容错能力和鲁棒性,极大提高了车辆一次性泊车的成功率。

Description

一种基于DQN的车辆自动泊车方法
技术领域
本发明属于智能驾驶及其控制技术领域,特别设计一种基于DQN的车辆自动泊车方法。
背景技术
随着经济的发展,人民的生活水平在逐年上升,汽车也逐渐走进更多人的生活,但是在停车的时候一些司机特别是新手司机及公交车等大型车辆的司机,因为视野受限及熟练度不够,使其在停车过程中存在较大的难度,虽然当下的倒车雷达及倒车影像都很普及,但是最终操作的还是驾驶员,其只能观察某一个区域,存在较大的局限性。目前车辆定位技术及传感器系统已经非常成熟,使得自动泊车技术能够走出实验室,成为一种高级的辅助驾驶的重要组成。但是现有的自动泊车效率不高,不能实现真正的自动泊车,还需要驾驶员在泊车过程中介入才能完成。在此基础之上,本发明提出了一种基于DQN的车辆自动泊车方法,该方法能够自主学习泊车过程,能够大大减轻司机的泊车压力,同时能够针对不同的车辆进行自主学习,有较好的适应性。
发明内容
本发明的目的在于,为了解决现有的自动泊车效率不高、精度差、需要人在中间介入的问题,提出一种基于DQN的车辆自动泊车方法,能够更好更快的完成泊车过程,减轻司机的泊车负担,提高泊车的效率。
本发明所提供的技术方案为
一种基于DQN(Deep Q-Network,深度Q网络)的车辆自动泊车方法,包括以下步骤:
步骤一,通过GPS及毫米波等传感器获取障碍物信息(坐标和宽度)及泊车位信息,建立泊车坐标系,判断泊车类型是垂直泊车还是平行泊车,并将车辆停到相对合理的泊车起始位置;
步骤二,获取当前时刻的车辆位置信息(坐标和航向角);根据当前时刻的车辆位置信息、障碍物信息及泊车位信息,使用训练过后的DQN计算期望车辆前轮摆角;
步骤三,按照根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆;
步骤四,更新当前时刻的车辆位置信息,判断是否进入泊车位,如果进入泊车位则泊车结束,否则更新障碍物信息,返回步骤二重新计算车辆前轮摆角。
进一步地,所述步骤一中,判断泊车类型的方法为:如果泊车位与泊车起始位置垂直,则为垂直泊车,如果泊车位与泊车起始位置平行,则为平行泊车;
确定相对合理的泊车起始位置的方法为:
首先,确定相对合理的泊车最终位置:相对合理的泊车最终位置位于泊车位内,并与泊车位四周指示线的距离均不小于0.05m(相对合理的泊车最终位置与理想泊车最终位置是有一定误差);然后,在相对合理的泊车最终位置内确定理想泊车最终位置;再按以下方法确定与理想泊车最终位置对应的理想泊车起始位置:在垂直泊车中,车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的纵向距离为车辆的最小转弯半径Rmin(最小转弯半径Rmin通过查询车辆自身参数获得),横向距离为车辆最小转弯半径Rmin与车辆轴长Rmin的和,车头朝向与车位中轴线垂直;平行泊车中,车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的横向距离为纵向距离为车头朝向与车位中轴线平行;最后,确定与理想泊车起始位置横向及纵向误差不大于1.5m,航向误差不大于10°的位置为相对合理的泊车起始位置。
进一步地,所述步骤四中,如果车辆进入泊车位,且到达相对合理的泊车最终位置则泊车结束。
在Q-learning中,通过建立一个Q表来存储状态-动作的Q值,通过公式(1)更新状态的Q值,
Q(s,a)=Q(s,a)+α[r+γmaxa'Q(s',a')-Q(s,a)] (1)
其中,s为当前状态,Q(s,a)为当前状态s下每一个动作a的Q值,Q(s′,a′)为执行动作a之后下一状态s′下每一个动作a′的Q值,γ为学习效率,α折扣因子,r是执行动作a之后得到的价值。通过不断学习,Q表最终收敛到一个稳定的表。
针对状态比较多的情况,Q表(Q-table)会无限大,这就需要用DQN来解决。
DQN是建立在Q-learning的基础上,用神经网络取代Q表计算Q值,在DQN中有两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络,当前神经网络用于计算当前状态的s下每一个动作a的Q值Q(s,a),目标神经网络计算用于下一个状态s′下每一个动作a′的Q值Q(s′,a′),其中,在训练阶段用到当前神经网络及目标神经网络,在训练结束之后,只用当前神经网络选择动作。
进一步地,所述步骤二和步骤三中:
首先,建立DQN;DQN中包括两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络,当前神经网络用于计算当前状态,即当前状态st下每一个动作a的Q值Q(st,a),一个动作a表示车辆前轮转动一个角度并移动特定距离,目标神经网络计算用于下一个状态st+1下每一个动作a的Q值Q(st+1,a);神经网络的输入层为车辆位置信息障碍物信息sobi=(xobi,yobi,wobi),i=1,2,…,n及理想泊车最终位置信息sp=(xp,yp,yp),其中,xt,yt分别为车辆在泊车坐标系中的x,y坐标及航向角;xobi,yobi和wobi为第i个障碍物在泊车坐标系中的x、y坐标及宽度,n为障碍物的个数,当没有障碍物时,则将障碍物信息设置为泊车位四个角的位置,宽度为固定值;xp、yp分别为车辆理想泊车最终泊位置在泊车坐标系中的x、y坐标及方向;神经网络的中间隐含层有两层,每层有20个神经元;神经网络输出为当前状态st下每一个动作a的Q值Q(st,a);车辆前轮转动角度,即前轮摆角一共有N=β/τ+1个,其中β为前轮摆角最大值与最小值的差值,τ为分辨率;
然后,对DQN进行训练;
最后,将当前时刻的车辆位置信息障碍物信息sobi=(xobi,yobi,wobi),i=0,2,…,n及理想泊车最终位置信息输入到训练好的DQN中的当前神经网络中,用当前神经网络计算当前状态下每一个动作的Q值,根据ε-greedy策略选择动作at并,并执行动作at,即计算期望车辆前轮摆角,并根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆。
进一步地,所述对DQN进行训练包括以下步骤:
步骤1,按照平行泊车中泊车位在车辆左后方及右后方,垂直泊车中泊车位在车辆左后方及右后方四种情景采集四组泊车数据并存储,每一组泊车数据包括多条路径上的车辆位置信息障碍物信息{sobi=(xobi,yobi,wobi):i=1,2,…,n}及理想泊车最终位置其中,m为路径上的车辆位置信息的个数,n为障碍物的个数;数据的存储形式为[lt,sob1…sobn,sp],这四组数据将用于训练同一个DQN;
步骤2,针对没有障碍物的情况进行训练;
2.1、令n=4,将障碍物信息设置为泊车位四个角的位置,宽度为固定值;初始化DQN中神经网络的权重θ;
2.2、令当前循环次数t=1;令当前状态st=lt
2.3、以当前状态st,障碍物信息sobi=(xobi,yobi,wobi),i=1,2,…,n及车辆理想泊车最终位置作为当前神经网络的输入,计算当前状态st下每一个动作a的Q值Q(st,a);
2.4、根据ε-greedy策略选择动作at,并执行动作at,得到奖励rt和下一个状态如果执行动作at后到达理想泊车最终位置,即st+1=sp,表明已将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置,则rt=10,结束训练;如果执行动作at后到达采集的数据中的车辆位置,即 则rt=1,如果执行动作at后撞到障碍物,即st+1∈{sobi=(xobi,yobi,wobi):i=1,2,…,n},则rt=-1,其他情况rt=0;
2.5、将st+1、障碍物信息sobi=(xobi,yobi,wobi),i=1,2,…,n及车辆理想泊车最终位置sp作为目标神经网络的输入,将目标神经网络输出层的最大值maxaQ(st+1,a)作为下一状态st+1的目标值,用公式1计算动作at的回报μt
其中γ为折扣因子;
2.6、使用梯度下降法更新当前神经网络的权重,公式为其中
2.7、判断是否有t=kC,k=1,2,…,即是否进行了kC次循环,若是,则将目标神经网络的权重更新为当前神经网络的权重(即每隔C步更新一次目标神经网络的权重);
2.8、令t=t+1;返回步骤2.2;
步骤3,针对有静态障碍物的情况进行训练;
将障碍物信息设置为步骤1中采集的静态障碍物信息;初始化DQN中神经网络的权重θ为步骤2中针对没有障碍物的情况进行训练后得到的神经网络的权重;重复步骤2.2~步骤2.8的训练流程进行训练,直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置;
步骤4,针对有动态障碍物的情况进行训练;
将障碍物信息设置为步骤1中采集的动态障碍物信息;初始化DQN中神经网络的权重θ为步骤3中针对有静态障碍物的情况进行训练后得到的神经网络的权重;重复步骤2.2~步骤2.8的训练流程进行训练,直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置,得到最终的DQN。
车辆在泊车过程中,会有行人等障碍物对泊车产生一定的影响,本发明对DQN分为没有障碍物、存在静态障碍物、存在动态障碍物三种情况进行训练,能减少训练时间、增加训练的可靠度。实际应用的过程中,采用经过没有障碍物、存在静态障碍物和存在动态障碍物三种情况训练之后得到的最终的DQN计算期望车轮前摆角。
进一步地,所述ε-greedy策略是指:
设置一个Epsilon值ε,其中ε是一个介于0-1之间的数,在选择动作的过程中,产生一个随机数random,若random<ε,则选择最大Q值对应的动作at,否则随机选择一个动作。
进一步地,所述泊车结束的判断方法为:
判断当前时刻的车辆位置与理想泊车最终位置的欧氏距离及车辆的航向的偏差指标M,通过公式(2)计算:
其中,k1,k2为设置的系数,在0-1之间;如果距离M<Mmin,则判定车辆已经到达相对合理的泊车最终位置,其中Mmin为偏差指标阈值,为经验参数。
进一步地,所述泊车位坐标系是指以车辆在理想泊车最终位置时的后轴中心点为原点,泊车位中轴线为x轴,泊车与中轴线垂直的方向为y轴,泊车位上方为Z轴,逆时针旋转方向为负,车辆位置信息中车辆的x,y坐标都是车辆后轴中心点的x,y坐标。
本发明方法是在车辆进入泊车状态,且起始位置较为理想的情况下进行的;在泊车过程中,车辆的速度相对较低,一般小于等于10km/h,所以本发明只针对车辆的前轮摆角进行控制,速度设置为定值。本发明中的泊车位尺寸按照国家的标准,即小型车车位尺寸为2.5~2.7×5~6米,公交车车位尺寸为3.8~4.8×12~14米。
有益效果:
本发明采用DQN计算期望车辆前轮摆角,系统能够自主学习相关参数,完成泊车过程;大大减少以往泊车系统参数调试的工作,减少了人为干预,;使系统有较好的容错能力和鲁棒性,极大提高了车辆一次性泊车的成功率。本发明能够更好更快的完成泊车过程,减轻司机的泊车负担,提高泊车的效率。本发明通过采集不同车辆的数据能够实现不同车辆的自主泊车。
附图说明:
图1为本发明流程图;
图2为本发明中的泊车类型;图2(a)为垂直泊车,图2(b)为平行泊车;
图3为DQN模型
具体实施方式:
以下将结合附图和具体实施实例对本发明做进一步详细说明。
本实施实例采用长12m,宽2.5m的大客车改装的智能车,装有激光雷达、毫米波雷达、GPS定位系统及机器视觉系统,在标准的停车场进行自动泊车实验。
参照图1所示的流程,一种基于DQN的车辆自动泊车方法,包括以下几个步骤:
步骤一,通过GPS及毫米波等传感器获取障碍物信息及可用泊车位,建立泊车坐标系,判断是垂直泊车还是平行泊车,行驶到相对合理的泊车起始位置;
步骤二,获取当前时刻的车辆位置信息;根据当前时刻的车辆位置信息及障碍物信息,用训练过后的DQN计算期望车辆前轮摆角;
步骤三,按照根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆;
步骤四,更新当前时刻的车辆位置信息,判断是否进入泊车位,如果到达泊车最终位置,泊车结束,否则返回步骤二重新计算期望车辆前轮摆角。
所述步骤一具体包含以下步骤:
(1.1)车辆从停车场控制中心获得可用泊车位的位置,判断泊车的类型并将车辆停在相对合理的位置A附近,方向与理想航向偏差在10°以内;获得车辆周围障碍物的信息,主要包括障碍物的坐标及宽度;
(1.2)以泊车最终位置的车辆后轴中心点为原点,泊车位中轴线为x轴,泊车与中轴线垂直的方向为y轴,泊车位上方为Z轴,逆时针旋转方向为负建立泊车位坐标系,以车辆后轴中心点为原点,车辆正前方为x轴,车辆正左方为y轴,车辆正上方为Z轴建立车辆坐标系,并将车辆及障碍物位置等信息映射到坐标系中。
所述步骤二具体包含以下步骤:
在Q-learning中,通过建立一个Q表来存储状态-动作的Q值,通过公式(1)更新状态的Q值。
Q(s,a)=Q(s,a)+α[r+γmaxa'Q(s',a')-Q(s,a)] (1)
其中,s为当前的状态,Q(s,a)为当前状态的Q值,Q(s′,a′)为执行动作a之后下一状态s′的Q值,γ为学习效率,α折扣因子。通过不断学习,Q表最终收敛到一个稳定的表。
本实例中建立的输入有五个状态即车辆位置信息及四个障碍物信息sob1,sob2,sob3,sob4;在检测到障碍物的时候,将sob1、sob2、sob3、sob4依次设置为检测到的障碍物信息,在没有检测到障碍物的时候,则将sob1、sob2、sob3、sob4依次设置为泊车位的四个角的坐标及宽度,其中宽度设置为15cm;神经网络输出为当前状态st下每一个动作a的Q值Q(st,a),本发明中动作a表示车辆前轮转动一个角度并移动特定距离;本实施例中车辆前轮转动角度,即前轮摆角前轮摆角为-30°到+30°,设置β=60,τ=1,则一共有61个前轮摆角,即(-30°,-29°,…0…+29°,+30°)。
将车辆位置信息及四个障碍物信息输入到训练好的DQN中,用当前神经网络计算输出层中每一个前轮摆角对应的Q值,根据ε-greedy策略选择合适的前轮摆角。
训练DQN主要包括以下步骤:
(2.1)按照平行泊车中泊车位在车辆左后方及右后方,垂直泊车中泊车位在车辆左后方及右后方四种情景采集四组泊车数据,每组数据有10条路径,采集的数据用于训练同一个DQN;
(2.2)将四个障碍物信息sob1,sob2,sob3,sob4设置为泊车位的四个角的坐标且宽度设置为15cm;
(2.3)采用重复经验的方法对DQN进行训练,车辆在泊车位坐标系中的当前位置信息st及sob1、sob2、sob3、sob4为输入,计算输出层中每一个动作a的Q值Q(st,a),在训练阶段根据ε-greedy策略选择动作at,在应用阶段直接选取最大Q值对应的动作at,执行动作at,得到奖励rt及下一个状态如果执行动作at后到达最终泊车的位置,则rt=10,如果执行动作at后得到的st+1在采集的数据中,rt=1,如果执行动作at后撞到障碍物,rt=-1,其他情况rt=0,在目标神经网络中计算下一状态st+1的目标值maxa Q(st+1,a),用公式(2)计算动作at的回报μt
其中γ为折扣因子;
使用梯度下降法更新当前神经网络的权重,公式为其中
将(st,at,rt,st+1)存储下来,作为经验回放的数据,在经过一定步长的训练之后,将目标神经网络的权重更新为计算当前神经网络的权重,一直训练到能够从相对合理的泊车起始位置到达车辆的泊车位置;
(2.4)将四个障碍物信息sob1,sob2,sob3,sob4设置为静态的障碍物重复2.3进行训练;
(2.5)将四个障碍物信息sob1,sob2,sob3,sob4设置为动态的障碍物重复2.3进行训练;
ε-greedy策略是指,设置一个Epsilon值ε=0,其中ε是一个介于0-1之间的数,在选择动作的过程中,产生一个随机数random,若random<ε,则选择最大Q值对应的动作at,否则随机选择一个动作;
所述步骤三具体包含以下步骤:
(3.1)执行DQN计算出的前轮摆角,并跟新车辆位置;
(3.2)判断当前时刻的车辆位置与理想泊车最终位置的欧氏距离及车辆的航向的偏差指标M,通过公式(3)计算:
如果M<Mmin,则判定车辆已经到达相对合理的泊车最终位置,泊车过程结束,否则,则继续更新位置,并重新计算摆角。
以上实例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实例对本发明进行详细的讲解,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应包含在本发明的权利要求范围内。

Claims (8)

1.一种基于DQN的车辆自动泊车方法,其特征在于,包括以下步骤:
步骤一,获取障碍物信息及泊车位信息,建立泊车坐标系,判断泊车类型是垂直泊车还是平行泊车,并将车辆停到相对合理的泊车起始位置;
步骤二,获取当前时刻的车辆位置信息;根据当前时刻的车辆位置信息、障碍物信息及泊车位信息,使用训练过后的DQN计算期望车辆前轮摆角;
步骤三,按照根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆;
步骤四,更新当前时刻的车辆位置信息,判断是否进入泊车位,如果进入泊车位则泊车结束,否则更新障碍物信息,返回步骤二重新计算车辆前轮摆角;
所述步骤二和步骤三中:
首先,建立DQN;DQN中包括两个结构相同但是参数不同的神经网络-目标神经网络及当前神经网络,当前神经网络用于计算当前状态,即当前状态st下每一个动作a的Q值Q(st,a),一个动作a表示车辆前轮转动一个角度并移动特定距离,目标神经网络计算用于下一个状态st+1下每一个动作a的Q值Q(st+1,a);神经网络的输入层为车辆位置信息障碍物信息sobi=(xobi,yobi,wobi),i=1,2,...,n及理想泊车最终位置信息其中,xt,yt分别为车辆在泊车坐标系中的x,y坐标及航向角;xobi,yobi和wobi为第i个障碍物在泊车坐标系中的x、y坐标及宽度,n为障碍物的个数,当没有障碍物时,则将障碍物信息设置为泊车位四个角的位置,宽度为固定值;xp、yp分别为车辆理想泊车最终位置在泊车坐标系中的x、y坐标及方向;神经网络输出为当前状态st下每一个动作a的Q值Q(st,a);车辆前轮转动角度,即前轮摆角一共有N=β/τ+1个,其中β为前轮摆角最大值与最小值的差值,τ为分辨率;
然后,对DQN进行训练;
最后,将当前时刻的车辆位置信息障碍物信息sobi=(xobi,yobi,wobi),i=0,2,...,n及理想泊车最终位置信息输入到训练好的DQN中,用当前神经网络计算当前状态下每一个动作的Q值,根据ε-greedy策略选择动作at,并执行动作at,即计算期望车辆前轮摆角,并根据期望车辆前轮摆角,控制车辆前轮转动并移动车辆。
2.根据权利要求1所述基于DQN的车辆自动泊车方法,其特征在于,所述步骤一中,判断泊车类型的方法为:如果泊车位与泊车起始位置垂直,则为垂直泊车,如果泊车位与泊车起始位置平行,则为平行泊车;
确定相对合理的泊车起始位置的方法为:
首先,确定相对合理的泊车最终位置:相对合理的泊车最终位置位于泊车位内,并与泊车位四周指示线的距离均不小于0.05m;然后,在相对合理的泊车最终位置内确定理想泊车最终位置;再按以下方法确定与理想泊车最终位置对应的理想泊车起始位置:在垂直泊车中,车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的纵向距离为车辆的最小转弯半径Rmin,横向距离为车辆最小转弯半径Rmin与车辆轴长Rmin的和,车头朝向与车位中轴线垂直;平行泊车中,车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的横向距离为纵向距离为车头朝向与车位中轴线平行;最后,确定与理想泊车起始位置横向及纵向误差不大于1.5m,航向误差不大于10°的位置为相对合理的泊车起始位置。
3.根据权利要求2所述的基于DQN的车辆自动泊车方法,其特征在于,所述步骤四中,如果车辆进入泊车位,且到达相对合理的泊车最终位置则泊车结束。
4.根据权利要求1~3中任一项所述的基于DQN的车辆自动泊车方法,其特征在于,对DQN进行训练包括以下步骤:
步骤1,按照平行泊车中泊车位在车辆左后方及右后方,垂直泊车中泊车位在车辆左后方及右后方四种情景采集四组泊车数据并存储,每一组泊车数据包括多条路径上的车辆位置信息障碍物信息{sobi=(xobi,yobi,wobi):i=1,2,...,n)及理想泊车最终位置其中,m为路径上的车辆位置信息的个数,n为障碍物的个数;数据的存储形式为[lt,sob1…sobn,sp],这四组数据将用于训练同一个DQN;
步骤2,针对没有障碍物的情况进行训练;
2.1、令n=4,将障碍物信息设置为泊车位四个角的位置,宽度为固定值;初始化DQN中神经网络的权重θ;
2.2、令当前循环次数t=1;令当前状态st=lt
2.3、以当前状态st,障碍物信息sobi=(xobi,yobi,wobi),i=1,2,...,n及车辆理想泊车最终位置作为当前神经网络的输入,计算当前状态st下每一个动作a的Q值Q(st,a);
2.4、根据ε-greedy策略选择动作at,并执行动作at,得到奖励rt和下一个状态如果执行动作at后到达理想泊车最终位置,即st+1=sp,表明已将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置,则rt=10,结束训练;如果执行动作at后到达采集的数据中的车辆位置,即 则rt=1,如果执行动作at后撞到障碍物,即st+1∈{sobi=(xobi,yobi,wobi):i=1,2,...,n),则rt=-1,其他情况rt=0;
2.5、将st+1、障碍物信息sobi=(xobi,yobi,wobi),i=1,2,...,n及车辆理想泊车最终位置sp作为目标神经网络的输入,将目标神经网络输出层的最大值maxaQ(st+1,a)作为下一状态st+1的目标值,用公式1计算动作at的回报μt
其中γ为折扣因子;
2.6、使用梯度下降法更新当前神经网络的权重,公式为其中
2.7、判断是否有t=kC,k=1,2,...,即是否进行了kC次循环,若是,则将目标神经网络的权重更新为当前神经网络的权重,即每隔C步更新一次目标神经网络的权重;
2.8、令t=t+1;返回步骤2.2;
步骤3,针对有静态障碍物的情况进行训练;
将障碍物信息设置为步骤1中采集的静态障碍物信息;初始化DQN中神经网络的权重θ为步骤2中针对没有障碍物的情况进行训练后得到的神经网络的权重;重复步骤2.2~步骤2.8的训练流程进行训练,直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置;
步骤4,针对有动态障碍物的情况进行训练;
将障碍物信息设置为步骤1中采集的动态障碍物信息;初始化DQN中神经网络的权重θ为步骤3中针对有静态障碍物的情况进行训练后得到的神经网络的权重;重复步骤2.2~步骤2.8的训练流程进行训练,直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置,得到最终的DQN。
5.根据权利要求4要求所述的基于DQN的车辆自动泊车方法,ε-greedy策略是指:
设置一个Epsilon值ε,其中ε是一个介于0-1之间的数,在选择动作的过程中,产生一个随机数random,若random<ε,则选择最大Q值对应的动作at,否则随机选择一个动作。
6.根据权利要求4所述的基于DQN的车辆自动泊车方法,其特征在于,泊车结束的判断方法为:
判断当前时刻的车辆位置与理想泊车最终位置的欧氏距离及车辆的航向的偏差指标M,通过公式(2)计算:
其中,k1,k2为设置的系数,在0-1之间;如果距离M<Mmin,则判定车辆已经到达相对合理的泊车最终位置,其中Mmin为偏差指标阈值,为经验参数。
7.根据权利要求1所述的基于DQN的车辆自动泊车方法,其特征在于,所述泊车位坐标系是指以车辆在理想泊车最终位置时的后轴中心点为原点,泊车位中轴线为x轴,泊车与中轴线垂直的方向为y轴,泊车位上方为Z轴,逆时针旋转方向为负,车辆位置信息中车辆的x,y坐标都是车辆后轴中心点的x,y坐标。
8.根据权利要求1所述的基于DQN的车辆自动泊车方法,在泊车过程中,车辆的速度设置为定值,且小于或等于10km/h;所述泊车位尺寸按照国家的标准,即小型车车位尺寸为2.5~2.7×5~6米,公交车车位尺寸为3.8~4.8×12~14米。
CN201810277016.5A 2018-03-30 2018-03-30 一种基于dqn的车辆自动泊车方法 Active CN108407805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810277016.5A CN108407805B (zh) 2018-03-30 2018-03-30 一种基于dqn的车辆自动泊车方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810277016.5A CN108407805B (zh) 2018-03-30 2018-03-30 一种基于dqn的车辆自动泊车方法

Publications (2)

Publication Number Publication Date
CN108407805A CN108407805A (zh) 2018-08-17
CN108407805B true CN108407805B (zh) 2019-07-30

Family

ID=63134021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810277016.5A Active CN108407805B (zh) 2018-03-30 2018-03-30 一种基于dqn的车辆自动泊车方法

Country Status (1)

Country Link
CN (1) CN108407805B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109895764B (zh) 2018-06-29 2023-06-27 华为技术有限公司 确定自动泊车策略的方法和装置
CN110136481B (zh) * 2018-09-20 2021-02-02 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN109591808B (zh) * 2018-10-18 2021-04-16 蔚来(安徽)控股有限公司 用于自动泊车系统的调试方法、装置及系统
CN111098850A (zh) * 2018-10-25 2020-05-05 北京初速度科技有限公司 一种自动停车辅助系统及自动泊车方法
CN109606247A (zh) * 2018-11-23 2019-04-12 浙江大学 汽车激光点倒车辅助选配件
CN111434550B (zh) * 2019-01-15 2021-12-31 魔门塔(苏州)科技有限公司 一种基于仿真的泊车策略生成方法及系统
JP7188279B2 (ja) * 2019-05-29 2022-12-13 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN110361709B (zh) * 2019-06-28 2021-04-20 清矽微电子(南京)有限公司 一种基于动态虚警概率的车载毫米波雷达目标识别方法
JP7124797B2 (ja) * 2019-06-28 2022-08-24 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN110646009B (zh) * 2019-09-27 2022-03-01 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN112937553B (zh) * 2019-11-26 2023-06-23 帝亚一维新能源汽车有限公司 无人驾驶车辆自动泊车方法
CN111098852B (zh) * 2019-12-02 2021-03-12 北京交通大学 一种基于强化学习的泊车路径规划方法
CN111982532B (zh) * 2020-08-07 2021-07-20 湖北亿咖通科技有限公司 一种自动泊车性能测试方法
CN112537293B (zh) * 2020-12-11 2022-04-01 武汉乐庭软件技术有限公司 一种自动泊车控制系统中的泊车精度计算方法
CN113401117A (zh) * 2021-07-08 2021-09-17 上海追势科技有限公司 一种基于大数据分析的人车共享方法
CN113525357B (zh) * 2021-08-25 2022-12-09 吉林大学 自动泊车决策模型优化系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
US10304335B2 (en) * 2016-04-12 2019-05-28 Ford Global Technologies, Llc Detecting available parking spaces
CN106157688B (zh) * 2016-08-25 2019-01-25 华南师范大学 基于深度学习和大数据的停车位检测方法和系统
JP6761708B2 (ja) * 2016-09-05 2020-09-30 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 駐車位置特定方法、駐車位置学習方法、駐車位置特定システム、駐車位置学習装置およびプログラム
CN107792062B (zh) * 2017-10-16 2019-11-05 北方工业大学 一种自动泊车控制系统

Also Published As

Publication number Publication date
CN108407805A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108407805B (zh) 一种基于dqn的车辆自动泊车方法
AU2017418043B2 (en) Systems and methods for trajectory determination
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN106573618B (zh) 车辆的行驶控制装置及方法
CN105539430B (zh) 一种基于手持终端的人车交互智能泊车方法
CN109739218A (zh) 一种基于gru网络的仿优秀驾驶员换道模型建立方法
CN106564496B (zh) 基于前向车辆驾驶行为的智能车辆安全环境包络重构方法
CN105857306A (zh) 一种用于多种泊车场景的车辆自主泊车路径规划方法
CN109017766A (zh) 一种用于自动驾驶车辆的平行车位全自动泊车控制系统
DE102018129066A1 (de) Systeme und verfahren für ungeschütztes linksabbiegen in situationen mit hohem verkehrsaufkommen in autonomen fahrzeugen
DE102016209966A1 (de) Autonomfahrtvorrichtung und Fahrzeugsteuervorrichtung
CN110304045A (zh) 智能驾驶横向换道决策方法、系统和装置
CN107167155A (zh) 一种地下停车场弯曲坡道路径规划及路径跟踪方法
DE102015107668A1 (de) Fahrassistenzvorrichtung
CN110304074A (zh) 一种基于分层状态机的混合式驾驶方法
CN105116881B (zh) 一种基于在线学习机制的轮式机器人自适应导航方法
CN109557922B (zh) 一种智能拖拉机田间避障控制系统及方法
CN109386155A (zh) 面向自动化停车场的无人泊车搬运机器人的对位方法
CN103465906A (zh) 一种基于临场感的停车场自动停车实现方法
CN110395265A (zh) 用于自动确定拖车尺寸的系统及方法
CN113715842B (zh) 一种基于模仿学习和强化学习的高速运动车辆控制方法
WO2019170346A1 (de) Verfahren zum berechnen einer trajektorien-limitierung und verfahren zur regelung einer fahrdynamik
CN112566603B (zh) 一种轮椅结构参数自适应调节方法、系统及存储介质
CN113051765B (zh) 一种基于虚拟场景变换的智能驾驶车辆车路在环测试方法
CN109709944A (zh) 一种自动驾驶公交车的进站方法及其进站路径的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant