CN107145936A - 一种基于强化学习的车辆跟驰模型建立方法 - Google Patents

一种基于强化学习的车辆跟驰模型建立方法 Download PDF

Info

Publication number
CN107145936A
CN107145936A CN201710268022.XA CN201710268022A CN107145936A CN 107145936 A CN107145936 A CN 107145936A CN 201710268022 A CN201710268022 A CN 201710268022A CN 107145936 A CN107145936 A CN 107145936A
Authority
CN
China
Prior art keywords
mrow
msub
msubsup
vehicle
mtr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710268022.XA
Other languages
English (en)
Inventor
谭国真
罗志祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710268022.XA priority Critical patent/CN107145936A/zh
Publication of CN107145936A publication Critical patent/CN107145936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及汽车无人驾驶技术领域,一种基于强化学习的车辆跟驰模型建立方法,包括以下步骤:(1)定义经验缓存D、创建Q值网络,(2)随机初始化环境中所有车辆位置、速度、加速度和环境状态,(3)选择并执行动作,记录转移样本,计算长期回报,(4)更新Q值网络权重,对误差函数loss进行一次梯度下降,(5)步数是否超过最大时间步数,重复步骤3至步骤4,直到步数超过最大时间步数timestepmax的值或碰撞,(6)步数是否超过最大回合数,重复步骤2至步骤5,直到步数超过最大回合数episodemax的值。本发明把强化学习和神经网络结合起来,不断地对环境进行探索和对已经学习到的经验进行利用,最终得到一个无须驾驶数据驱动的无人汽车跟驰模型建立方法。

Description

一种基于强化学习的车辆跟驰模型建立方法
技术领域
本发明涉及一种基于强化学习的车辆跟驰模型建立方法,属于汽车无人驾驶技术领域。
背景技术
汽车的发明加快了人员、物资、信息的流动,缩短了空间距离,节约了时间,加快了社会的发展,具有里程碑意义。同时,带来了严重的社会问题和环境问题。例如,在汽车行驶过程中,驾驶员需要精神高度集中,不断在加速状态和减速状态之间切换汽车的状态,增加了交通事故发生的可能性。
无人驾驶汽车是降低交通事故发生率和驾驶强度,实现交通事故接近零伤亡的行之有效的手段。现有的车辆跟驰决策模型能够很好地描述有人驾驶汽车的跟驰决策行为,但无法很好地描述无人驾驶汽车的跟驰决策行为。无人车辆跟驰技术的应用可以把驾驶员从高强度的驾驶操作中解脱出来,避免交通事故的发生。跟驰模型的研究始于1950年,60多年来国内外研究人员对车辆跟驰模型进行了大量的研究,取得了众多的研究成果,其中比较典型的理论模型有Gipps模型,IDM模型,Krauss模型,Wiedemann模型,元胞自动机模型。
Gipps模型是微观交通流模型中被广泛使用的一种安全距离模型。该模型能够比较真实的反映汽车的走停行为,同时,通过道路上实际观测的数据,很容易对模型中的参数进行校验。由于所需要的参数少,计算简单,该模型在实际中有着广泛的应用,如英国的SISTM,美国的VARSIM都使用此模型。但是,避免碰撞的假设与实际情况存在一定的差距。在实际的驾驶中,驾驶员并没有完全按照安全距离行驶。
IDM模型是一种基于刺激-响应方法的模型,它计算瞬时加速度。IDM模型中的刺激是当前距离差和需求距离差的差距比率,跟驰车辆试图追上远离的前导车辆,或者跟驰车辆因前导车辆越来越近而减速。但是IDM模型是一种纯确定性的模型,仅基于确定性刺激来获取瞬时加速度,因此它无法对不合理行为进行建模。Krauss是一种纯刺激-响应的模型,它在时间上是离散的。Krauss试图对人类个别的、不合理的反应进行建模。该模型使用随机参数来描述IDM模型无法模拟的特征。这种随机变量具有高效的物理建模能力,能够建模加速情形,并提供与驾驶员行为一致的模型。该模型在SUMO中使用。
Wiedemann模型是德国Karlsruhe大学的Wiedemann于1974年建立的一种心理-物理模型。不同的驾驶员可能对同一个刺激产生不同的反应。例如,如果驾驶员离某辆车很远或者很近,那么他对相对距离变化的反应肯定会不同。该模型把驾驶状态分为4类,从而描述驾驶员可能所处的状态,控制对同一刺激的反应:自由驾驶、接近模式、跟随模式、制动模式。但是驾驶员的驾驶行为是一个复杂的过程,受心理、物理、环境等因素的影响。不同的驾驶员对速度和距离变化的感觉和评价是不同的,因此该模型很难进行校验。
元胞自动机模型在空间和时间上是离散的,从而减少了计算的复杂度。该模型把交通系统描述为大小相同的元胞晶格,使用一些规则来控制车辆在元胞之间移动。元胞能够承载单个车辆,并且能使车辆在下一个时间步内移动到下一个元胞。但是,模型中的车辆跟驰规则毕竟与真实的车辆驾驶行为存在较大的差距。
在实现本发明的过程中,发明人发现现有的跟驰模型方法至少存在以下问题:(1)现有的车辆跟驰模型方法是基于经验公式,通过人为地设定模型参数来描述车辆的跟驰行为,由于跟驰行为的复杂性,人为设定的参数不能反映车辆真实的跟驰行为;(2)现有的跟驰模型,无论是针对有人驾驶车辆的跟驰模型还是针对无人驾驶车辆的跟驰模型,都没有考虑无人驾驶汽车的特性及其对有人驾驶汽车的影响,由于汽车驾驶员已经习惯了有人驾驶汽车的反应时间而无人驾驶汽车的反应时间极短,当汽车驾驶员前方的无人驾驶汽车突然停止时,后方驾驶员往往因为来不及刹车而造成追尾等交通事故;(3)现有的车辆跟驰模型方法基于数据驱动,需要大量的数据验证模型的正确性,但是很难保证所使用的数据包含了所有的特殊状态;(4)基于现有的车辆跟驰模型方法作出的决策往往不是最优决策。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于强化学习的车辆跟驰模型建立方法。该方法首先观察无人驾驶车辆所处环境的状态,然后对无人驾驶车辆在所处环境状态下所选择的动作对当前环境状态及未来的影响进行评价;重复这个过程直到无人驾驶汽车每次选择的动作都是最优的。该方案以较低的计算时间开销,无需人为设定参数,无需数据驱动,并且所选择的动作具有最优性。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采取的技术方案是:一种基于强化学习的车辆跟驰模型建立方法,包括以下步骤:
步骤1、定义经验缓存D、创建Q值网络,设置存储经验的经验缓存D={mi,mi+1,...,mi+N-1}的容量为N,式中mi表示第i步到第i+1步环境从一个状态转换到另一个状态的一次转换样本,mi+1表示第i+1步到第i+2步环境从一个状态转换到另一个状态的一次转换样本…mi+N-1表示第i+N-1步到第i+N步环境从一个状态转换到另一个状态的一次转换样本,创建Q值网络,Q值网络采用多层感知器网络,Q值表示目标车辆的长期回报;
步骤2、随机初始化环境中所有车辆位置、速度、加速度和环境状态,环境状态作为Q值网络的输入;
步骤3、选择并执行动作,记录转移样本,计算长期回报,以概率ε随机选择一个动作,其中ε可通过公式(1)计算得到,
式中,t表示当前时间步数,执行该动作并观察环境状态和立即奖励,再将环境从一个状态转换到另一个状态的转换样本m=(s,a,s',r)加入到经验缓存中,其中,表示执行动作前的环境状态,可通过公式(2)计算得到,
式中,hfront表示执行动作前目标车辆与前方车辆的时距,hrear表示执行动作前目标车辆与后方车辆的时距,x表示执行动作前目标车辆的位置,xfront表示执行动作前目标车辆前方车辆的位置,xrear表示执行动作前目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v表示执行动作前目标车辆的速度,vfront表示执行动作前目标车辆前方车辆的速度,vrear表示执行动作前目标车辆后方车辆的速度;
其中,表示执行动作后的环境状态,可通过公式(3)计算得到,
式中,h'front表示执行动作后目标车辆与前方车辆的时距,h'rear表示执行动作后目标车辆与后方车辆的时距,x'表示执行动作后目标车辆的位置,x'front表示执行动作后目标车辆前方车辆的位置,x'rear表示执行动作后目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v'表示执行动作后目标车辆的速度,v'front表示执行动作后目标车辆前方车辆的速度,v'rear表示执行动作后目标车辆后方车辆的速度,Δt表示时间步长,afront表示目标车辆前方车辆的加速度,arear表示目标车辆后方车辆的加速度,a表示目标车辆的加速度,其范围为a∈[-3.0,2.0],每个加速度之间间隔为0.1,单位为m/s2
其中,立即奖励r可通过公式(4)计算得到,
式中,表示只考虑目标车辆前方车辆的立即奖励,表示只考虑目标车辆后方车辆的立即奖励,如果加入转换样本后经验缓存的实际容量大于经验缓存的容量N则删除最早加入的转换样本,如果加入转换样本后经验缓存的实际容量大于小批量转换样本的容量M,则从经验缓存D中随机选择M个小批量转换样本,计算小批量转换样本的长期回报y,通过公式(5)计算得到,
式中,r表示立即奖励,γ表示折扣因子,γ∈[0,1],Q(s',a')表示在执行动作后的环境状态s'下选择加速度a'的Q值;
步骤4、更新Q值网络权重,对误差函数loss进行一次梯度下降,可以通过公式(6)计算得到,
loss=[y-Q(s,a)]2 (6)
式中,Q(s,a)表示在执行动作前的环境状态s下选择加速度a的Q值,将执行动作后的环境状态赋给执行动作前的环境状态,即s=s',其中梯度下降方法包括,AdaGrad、RMSProp及Adam;
步骤5、步数是否超过最大时间步数,重复步骤3至步骤4,直到步数超过最大时间步数timestepmax的值或碰撞;
步骤6、步数是否超过最大回合数,重复步骤2至步骤5,直到步数超过最大回合数episodemax的值。
本发明有益效果是:与已有技术相比,本发明具有以下优点,(1)该模型建立方法是智能车辆在不断地学习和探索中得到,与传统的人为设定模型参数、对真实驾驶数据进行拟合相比,不需要预先设定参数和提供驾驶数据。(2)该模型建立方法不但对安全的跟驰行为进行了学习和探索,并且对可能会导致交通事故的跟驰行为也进行了学习和探索,传统的基于驾驶数据的模型使用的驾驶数据是安全跟驰行为的驾驶数据,没有可能会造成交通事故的跟驰行为的驾驶数据,也没有对可能会造成交通事故的跟驰行为进行研究和建模;(3)该模型建立方法不但考虑了周围车辆对目标车辆的影响,而且考虑了目标车辆的行为对周围车辆的影响,传统的车辆跟驰模型方法只考虑了周围车辆对目标车辆的影响。(4)该模型建立方法考虑了无人驾驶汽车和有人驾驶汽车的区别,与传统只考虑无人驾驶汽车或只考虑有人驾驶汽车的跟驰模型相比,能有效地减少追尾交通事故;(5)该模型建立方法基于强化学习,作出的决策是最优的,传统的车辆跟驰模型方法作出的决策不是最优的。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的卷积神经网络结构图。
图3是本发明中的Q值网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于强化学习的车辆跟驰模型建立方法,包括以下步骤:
步骤1、定义经验缓存D、创建Q值网络,设置存储经验的经验缓存D={mi,mi+1,...,mi+N-1}的容量为N,式中mi表示第i步到第i+1步环境从一个状态转换到另一个状态的一次转换样本,mi+1表示第i+1步到第i+2步环境从一个状态转换到另一个状态的一次转换样本…mi+N-1表示第i+N-1步到第i+N步环境从一个状态转换到另一个状态的一次转换样本,创建Q值网络,Q值网络采用多层感知器网络,Q值表示目标车辆的长期回报;
步骤2、随机初始化环境中所有车辆位置、速度、加速度和环境状态,环境状态作为Q值网络的输入;
步骤3、选择并执行动作,记录转移样本,计算长期回报,以概率ε随机选择一个动作,其中ε可通过公式(1)计算得到,
式中,t表示当前时间步数,执行该动作并观察环境状态和立即奖励,再将环境从一个状态转换到另一个状态的转换样本m=(s,a,s',r)加入到经验缓存中,其中,表示执行动作前的环境状态,可通过公式(2)计算得到,
式中,hfront表示执行动作前目标车辆与前方车辆的时距,hrear表示执行动作前目标车辆与后方车辆的时距,x表示执行动作前目标车辆的位置,xfront表示执行动作前目标车辆前方车辆的位置,xrear表示执行动作前目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v表示执行动作前目标车辆的速度,vfront表示执行动作前目标车辆前方车辆的速度,vrear表示执行动作前目标车辆后方车辆的速度;
其中,表示执行动作后的环境状态,可通过公式(3)计算得到,
式中,h'front表示执行动作后目标车辆与前方车辆的时距,h'rear表示执行动作后目标车辆与后方车辆的时距,x'表示执行动作后目标车辆的位置,x'front表示执行动作后目标车辆前方车辆的位置,x'rear表示执行动作后目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v'表示执行动作后目标车辆的速度,v'front表示执行动作后目标车辆前方车辆的速度,v'rear表示执行动作后目标车辆后方车辆的速度,Δt表示时间步长,afront表示目标车辆前方车辆的加速度,arear表示目标车辆后方车辆的加速度,a表示目标车辆的加速度,其范围为a∈[-3.0,2.0],每个加速度之间间隔为0.1,单位为m/s2
其中,立即奖励r可通过公式(4)计算得到,
式中,表示只考虑目标车辆前方车辆的立即奖励,表示只考虑目标车辆后方车辆的立即奖励,如果加入转换样本后经验缓存的实际容量大于经验缓存的容量N则删除最早加入的转换样本,如果加入转换样本后经验缓存的实际容量大于小批量转换样本的容量M,则从经验缓存D中随机选择M个小批量转换样本,计算小批量转换样本的长期回报y,通过公式(5)计算得到,
式中,r表示立即奖励,γ表示折扣因子,γ∈[0,1],Q(s',a')表示在执行动作后的环境状态s'下选择加速度a'的Q值;
步骤4、更新Q值网络权重,对误差函数loss进行一次梯度下降,可以通过公式(6)计算得到,
loss=[y-Q(s,a)]2 (6)
式中,Q(s,a)表示在执行动作前的环境状态s下选择加速度a的Q值,将执行动作后的环境状态赋给执行动作前的环境状态,即s=s',其中梯度下降方法包括,AdaGrad、RMSProp及Adam;
步骤5、步数是否超过最大时间步数,重复步骤3至步骤4,直到步数超过最大时间步数timestepmax的值或碰撞;
步骤6、步数是否超过最大回合数,重复步骤2至步骤5,直到步数超过最大回合数episodemax的值。

Claims (1)

1.一种基于强化学习的车辆跟驰模型建立方法,其特征在于包括以下步骤:
步骤1、定义经验缓存D、创建Q值网络,设置存储经验的经验缓存D={mi,mi+1,...,mi+N-1}的容量为N,式中mi表示第i步到第i+1步环境从一个状态转换到另一个状态的一次转换样本,mi+1表示第i+1步到第i+2步环境从一个状态转换到另一个状态的一次转换样本…mi+N-1表示第i+N-1步到第i+N步环境从一个状态转换到另一个状态的一次转换样本,创建Q值网络,Q值网络采用多层感知器网络,Q值表示目标车辆的长期回报;
步骤2、随机初始化环境中所有车辆位置、速度、加速度和环境状态,环境状态作为Q值网络的输入;
步骤3、选择并执行动作,记录转移样本,计算长期回报,以概率ε随机选择一个动作,其中ε可通过公式(1)计算得到,
式中,t表示当前时间步数,执行该动作并观察环境状态和立即奖励,再将环境从一个状态转换到另一个状态的转换样本m=(s,a,s',r)加入到经验缓存中,其中,表示执行动作前的环境状态,可通过公式(2)计算得到,
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>h</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mi>x</mi> <mo>-</mo> <mn>0.5</mn> <mi>l</mi> <mo>-</mo> <mn>0.5</mn> <msub> <mi>l</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> </mrow> <mi>v</mi> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mn>0.5</mn> <mi>l</mi> <mo>-</mo> <mn>0.5</mn> <msub> <mi>l</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> </mrow> <msub> <mi>v</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式中,hfront表示执行动作前目标车辆与前方车辆的时距,hrear表示执行动作前目标车辆与后方车辆的时距,x表示执行动作前目标车辆的位置,xfront表示执行动作前目标车辆前方车辆的位置,xrear表示执行动作前目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v表示执行动作前目标车辆的速度,vfront表示执行动作前目标车辆前方车辆的速度,vrear表示执行动作前目标车辆后方车辆的速度;
其中,表示执行动作后的环境状态,可通过公式(3)计算得到,
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>=</mo> <mi>x</mi> <mo>+</mo> <mi>v</mi> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>+</mo> <mn>0.5</mn> <mi>a</mi> <msup> <mrow> <mo>(</mo> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>x</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>v</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>+</mo> <mn>0.5</mn> <msub> <mi>a</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>x</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>v</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>+</mo> <mn>0.5</mn> <msub> <mi>a</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mi>&amp;Delta;</mi> <mi>t</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>v</mi> <mo>&amp;prime;</mo> </msup> <mo>=</mo> <mi>v</mi> <mo>+</mo> <mi>a</mi> <mi>&amp;Delta;</mi> <mi>t</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>v</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>v</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>a</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mi>&amp;Delta;</mi> <mi>t</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>v</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>v</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>a</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mi>&amp;Delta;</mi> <mi>t</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>h</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mfrac> <mrow> <msubsup> <mi>x</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>-</mo> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>-</mo> <mn>0.5</mn> <mi>l</mi> <mo>-</mo> <mn>0.5</mn> <msub> <mi>l</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> </mrow> <msup> <mi>v</mi> <mo>&amp;prime;</mo> </msup> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msubsup> <mi>x</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>-</mo> <mn>0.5</mn> <mi>l</mi> <mo>-</mo> <mn>0.5</mn> <msub> <mi>l</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> </mrow> <msubsup> <mi>v</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
式中,h'front表示执行动作后目标车辆与前方车辆的时距,h′rear表示执行动作后目标车辆与后方车辆的时距,x'表示执行动作后目标车辆的位置,x'front表示执行动作后目标车辆前方车辆的位置,x'rear表示执行动作后目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v'表示执行动作后目标车辆的速度,v'front表示执行动作后目标车辆前方车辆的速度,v'rear表示执行动作后目标车辆后方车辆的速度,Δt表示时间步长,afront表示目标车辆前方车辆的加速度,arear表示目标车辆后方车辆的加速度,a表示目标车辆的加速度,其范围为a∈[-3.0,2.0],每个加速度之间间隔为0.1,单位为m/s2
其中,立即奖励r可通过公式(4)计算得到,
<mrow> <mi>r</mi> <mo>=</mo> <mfrac> <msubsup> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mrow> <msubsup> <mi>h</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>+</mo> <msubsup> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> </mfrac> <msub> <mi>r</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mfrac> <msubsup> <mi>h</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mrow> <msubsup> <mi>h</mi> <mrow> <mi>f</mi> <mi>r</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>+</mo> <msubsup> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> </mfrac> <msub> <mi>r</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式中,表示只考虑目标车辆前方车辆的立即奖励,表示只考虑目标车辆后方车辆的立即奖励,如果加入转换样本后经验缓存的实际容量大于经验缓存的容量N则删除最早加入的转换样本,如果加入转换样本后经验缓存的实际容量大于小批量转换样本的容量M,则从经验缓存D中随机选择M个小批量转换样本,计算小批量转换样本的长期回报y,通过公式(5)计算得到,
<mrow> <mi>y</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>r</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>r</mi> <mo>+</mo> <mi>&amp;gamma;</mi> <mi>max</mi> <mi>Q</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>a</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
式中,r表示立即奖励,γ表示折扣因子,γ∈[0,1],Q(s',a')表示在执行动作后的环境状态s'下选择加速度a'的Q值;
步骤4、更新Q值网络权重,对误差函数loss进行一次梯度下降,可以通过公式(6)计算得到,
loss=[y-Q(s,a)]2 (6)
式中,Q(s,a)表示在执行动作前的环境状态s下选择加速度a的Q值,将执行动作后的环境状态赋给执行动作前的环境状态,即s=s',其中梯度下降方法包括,AdaGrad、RMSProp及Adam;
步骤5、步数是否超过最大时间步数,重复步骤3至步骤4,直到步数超过最大时间步数timestepmax的值或碰撞;
步骤6、步数是否超过最大回合数,重复步骤2至步骤5,直到步数超过最大回合数episodemax的值。
CN201710268022.XA 2017-04-22 2017-04-22 一种基于强化学习的车辆跟驰模型建立方法 Pending CN107145936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710268022.XA CN107145936A (zh) 2017-04-22 2017-04-22 一种基于强化学习的车辆跟驰模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710268022.XA CN107145936A (zh) 2017-04-22 2017-04-22 一种基于强化学习的车辆跟驰模型建立方法

Publications (1)

Publication Number Publication Date
CN107145936A true CN107145936A (zh) 2017-09-08

Family

ID=59775390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710268022.XA Pending CN107145936A (zh) 2017-04-22 2017-04-22 一种基于强化学习的车辆跟驰模型建立方法

Country Status (1)

Country Link
CN (1) CN107145936A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229730A (zh) * 2017-12-19 2018-06-29 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110688729A (zh) * 2019-08-26 2020-01-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111081061A (zh) * 2018-10-22 2020-04-28 杭州海康威视数字技术股份有限公司 碰撞预警方法及装置
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
WO2021004435A1 (en) * 2019-07-06 2021-01-14 Huawei Technologies Co., Ltd. Method and system for training reinforcement learning agent using adversarial sampling
CN112612287A (zh) * 2020-12-28 2021-04-06 清华大学 一种自动驾驶汽车局部路径规划系统、方法、介质及设备
WO2021073079A1 (zh) * 2019-10-17 2021-04-22 南京航空航天大学 一种自动驾驶车辆路径与速度高度耦合的轨迹规划方法
CN113111502A (zh) * 2021-04-01 2021-07-13 同济大学 基于跟驰模型与驾驶员特征的驾驶员感知距离建模方法
CN115359672A (zh) * 2022-08-19 2022-11-18 东北大学秦皇岛分校 一种数据驱动与强化学习结合的交通区域边界控制方法
CN116859755A (zh) * 2023-08-29 2023-10-10 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662320A (zh) * 2012-03-05 2012-09-12 吴建平 一种基于模糊数学的车辆跟驰模拟方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662320A (zh) * 2012-03-05 2012-09-12 吴建平 一种基于模糊数学的车辆跟驰模拟方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALIREZA KHODAYARI ET AL.: "A Modified Car-Following Model Based on a Neural Network Model of the Human Driver Effects", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS - PART A: SYSTEMS AND HUMANS》 *
陆斯文等: "基于ANFIS的高速公路车辆跟驰模型与仿真", 《同济大学学报(自然科学版)》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229730B (zh) * 2017-12-19 2021-07-20 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN108229730A (zh) * 2017-12-19 2018-06-29 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN111081061B (zh) * 2018-10-22 2021-09-21 杭州海康威视数字技术股份有限公司 碰撞预警方法及装置
CN111081061A (zh) * 2018-10-22 2020-04-28 杭州海康威视数字技术股份有限公司 碰撞预警方法及装置
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN109598934B (zh) * 2018-12-13 2020-11-06 北京超星未来科技有限公司 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN110027553B (zh) * 2019-04-10 2020-10-23 湖南大学 一种基于深度强化学习的防碰撞控制方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
WO2021004435A1 (en) * 2019-07-06 2021-01-14 Huawei Technologies Co., Ltd. Method and system for training reinforcement learning agent using adversarial sampling
US11994862B2 (en) 2019-07-06 2024-05-28 Huawei Technologies Co., Ltd. Method and system for training reinforcement learning agent using adversarial sampling
CN110688729B (zh) * 2019-08-26 2023-07-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110688729A (zh) * 2019-08-26 2020-01-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN110745136B (zh) * 2019-09-20 2021-05-07 中国科学技术大学 一种驾驶自适应控制方法
WO2021073079A1 (zh) * 2019-10-17 2021-04-22 南京航空航天大学 一种自动驾驶车辆路径与速度高度耦合的轨迹规划方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110989576B (zh) * 2019-11-14 2022-07-12 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110969848B (zh) * 2019-11-26 2022-06-17 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN112201069B (zh) * 2020-09-25 2021-10-29 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112612287A (zh) * 2020-12-28 2021-04-06 清华大学 一种自动驾驶汽车局部路径规划系统、方法、介质及设备
CN112612287B (zh) * 2020-12-28 2022-03-15 清华大学 一种自动驾驶汽车局部路径规划系统、方法、介质及设备
CN113111502A (zh) * 2021-04-01 2021-07-13 同济大学 基于跟驰模型与驾驶员特征的驾驶员感知距离建模方法
CN115359672A (zh) * 2022-08-19 2022-11-18 东北大学秦皇岛分校 一种数据驱动与强化学习结合的交通区域边界控制方法
CN115359672B (zh) * 2022-08-19 2023-07-07 东北大学秦皇岛分校 一种数据驱动与强化学习结合的交通区域边界控制方法
CN116859755A (zh) * 2023-08-29 2023-10-10 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法
CN116859755B (zh) * 2023-08-29 2023-12-08 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法

Similar Documents

Publication Publication Date Title
CN107145936A (zh) 一种基于强化学习的车辆跟驰模型建立方法
CN108564234B (zh) 一种智能网联汽车的交叉口无信号自组织通行控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN109213148A (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN114495527B (zh) 一种混合交通环境下网联交叉口车路协同优化方法及系统
CN111439260A (zh) 面向个性化需求的网联商用柴油车巡航行驶优化控制系统
CN111332290B (zh) 一种基于前馈-反馈控制的车辆编队方法和系统
CN112233413B (zh) 一种面向智能网联车辆的多车道时空轨迹优化方法
CN105047057B (zh) 一种多用户多车道高快速路宏观交通流仿真方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN104851280B (zh) 一种车辆行驶控制方法、装置、系统及相关设备
CN112735126B (zh) 一种基于模型预测控制的混合交通流协同优化控制方法
Makantasis et al. Deep reinforcement‐learning‐based driving policy for autonomous road vehicles
CN105118329A (zh) 一种消解无信号交叉口两车交通冲突的方法
CN113269963B (zh) 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN112477846B (zh) 一种兼顾稳定性和节能的智能网联电动汽车队列控制方法
CN111785088B (zh) 一种网联车辆匝道合并的双层协同优化方法
CN107657345A (zh) 一种基于马尔可夫状态跳变的行人行走行为预测方法
CN111487975A (zh) 一种基于智能网联系统的港口卡车自动编队方法及系统
CN111899509A (zh) 一种基于车路信息耦合的智能网联汽车状态向量计算方法
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
Jin et al. A decentralized traffic light control system based on adaptive learning
CN116629114A (zh) 多智能体的模型训练方法、系统、计算机设备和存储介质
US20230131614A1 (en) Systems and methods for coordinated vehicle lane assignment
CN113104036B (zh) 一种基于无向网络系统的车辆协同编队控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170908

WD01 Invention patent application deemed withdrawn after publication