CN110568760A - 适用于换道及车道保持的参数化学习决策控制系统及方法 - Google Patents

适用于换道及车道保持的参数化学习决策控制系统及方法 Download PDF

Info

Publication number
CN110568760A
CN110568760A CN201910952119.1A CN201910952119A CN110568760A CN 110568760 A CN110568760 A CN 110568760A CN 201910952119 A CN201910952119 A CN 201910952119A CN 110568760 A CN110568760 A CN 110568760A
Authority
CN
China
Prior art keywords
vehicle
lane
state
module
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910952119.1A
Other languages
English (en)
Other versions
CN110568760B (zh
Inventor
高炳钊
张羽翔
吕吉东
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910952119.1A priority Critical patent/CN110568760B/zh
Publication of CN110568760A publication Critical patent/CN110568760A/zh
Application granted granted Critical
Publication of CN110568760B publication Critical patent/CN110568760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明属于汽车高级辅助驾驶及无人驾驶系统设计技术领域,具体的说是一种适用于换道及车道保持行为的参数化学习决策控制系统及方法。本发明基于参数化决策框架,设计了适用于换道及车道保持行为的参数化学习控制系统,其包括车辆在换道及车道保持场景下基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器,该系统适用于高级别自动驾驶车辆,通过在线学习有效提高系统对不同驾驶员不同驾驶行为特性的适应能力,进而使系统获得更优驾驶性能的条件下亦保证安全。

Description

适用于换道及车道保持的参数化学习决策控制系统及方法
技术领域
本发明属于汽车高级辅助驾驶及无人驾驶系统设计技术领域,具体的说是一种适用于换道及车道保持行为的参数化学习决策控制系统及方法。
背景技术
随着智能驾驶辅助技术以及无人驾驶技术的不断发展,不同形式的运动控制系统不断的被提出,并得到应用。例如,在运动轨迹规划与控制问题中,为使系统具备更多的功能性以及适应于各种场景,在车辆分层的控制框架下,集成的底层运动控制器需要可执行多种驾驶任务及场景,如换道,车道保持等。同时各个执行子系统,如驱动,制动,转向系统具备协调控制能力,并能实现不同任务间的平稳切换。其中,现有技术中提出的参数化的决策架构可以满足以上要求,即一个基于参数决策框架的轨迹规划控制方法,其基于模型预测控制方法,并在多种场景下集成了轨迹规划与运动控制。此种轨迹规划与控制方法因其用一种简单的形式,并可适用于多种驾驶任务及工况而具有优势发展潜力。在此种轨迹规划控制框架下,在决策控制层将类人的驾驶决策描述为与轨迹特征密切相关的若干决策参数。进一步地,对于不同决策参数的求解,需要适应于多变的驾驶工况,且不断适应于真实驾驶场景中真实人类驾驶员的行为及反馈行为,这些使用基于模型的控制方法,很难达到不断学习的效果。因此,对于决策层控制算法的设计,可以使用学习算法中在序列控制及连续学习中具备优势的强化学习算法。而对于城市工况,或高速公路工况,最常见的是换道及车道保持行为。其决策参数特征关系简单,具有一致性。
发明内容
本发明提出了一种适用于换道及车道保持行为的参数化学习决策控制系统及方法,包含基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器,该系统适用于高级别自动驾驶车辆,目标是通过在线学习有效提高系统对不同驾驶员不同驾驶行为特性的适应能力,进而使系统获得更优驾驶性能的条件下亦保证安全,解决了现有技术中存在的上述不足。
本发明技术方案结合附图说明如下:
一种适用于换道及车道保持的参数化学习决策控制系统,其特征在于,该系统包括感知信号收集及数据存储模块A、学习决策参数模块B、轨迹规划及运动控制模块C和执行跟踪模块D;
所述感知信号收集及数据存储模块A,用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理,并收集数据用于后续决策参数的学习训练;
所述学习决策参数模块B,用于对收集决策数据进行学习,当系统收集的数据量达到一定阈值或得到一定程度的更新,系统会不断进行学习,基于强化学习方法,学习合适的决策参数值;
所述轨迹规划及运动控制模块C,用于车辆规划的实时轨迹规划及运动控制,基于模型预测控制方法,使用学习决策参数模块B输出的具体决策参数值大小及感知信号收集及数据存储模块A判断的当前驾驶道路类型,确定控制器形式,并滚动优化轨迹;
所述执行跟踪模块D,用于对算法输出的控制量进行跟踪控制,采用PID控制器实现,保证控制精度;
所述感知信号收集及数据存储模块A与学习决策参数模块B、轨迹规划及运动控制模块C以及执行跟踪模块D相连;所述学习决策参数模块B与轨迹规划及运动控制模块C相连;所述轨迹规划及运动控制模块C与执行跟踪模块D相连。
一种适用于换道及车道保持的参数化学习决策控制系统的方法,该方法包括以下步骤:
步骤一、通过感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道,速度,加速度,以及相对于本车以其车道为基准的相对距离,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图即保持或者换道,以及本车的车道,速度,并将信息存储于模块中;
步骤二、通过学习决策参数模块B学习合适的决策参数值,即行为终端侧向偏移,行为时间,加减速行为的具体数值,将行为时间,加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间;基于核函数的最小二乘策略迭代强化学习方法,进行状态设计,以及回报设计,当系统收集的数据量达到一定阈值,使用此强化学习算法进行学习;
步骤三、通过轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解进行轨迹规划及运动控制,使用包含车辆动力学方程,具有六维状态向量的状态空间方程,并建立具有终端状态约束的约束方程,使得动作执行的过程可以配合不同道路类型;换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移,行为时间,加减速行为,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;对于直道与弯道两种不同的道路条件,相应的变换两种不同的终端状态等式约束条件,即直道条件下对车辆的终端侧向偏移,航向角,侧向速度,横摆角速度进行约束,以及弯道条件下,仅对车辆的终端侧向位移以及航向角进行约束;
步骤四、通过执行跟踪模块D对算法输出的控制量进行跟踪控制,采用PID控制器实现,保证控制精度。
所述步骤一的具体方法如下:
在感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的状态信息,并且对周围车辆的不同位置进行标号,并筛选对应位置处的目标车辆;如果相应位置有目标车辆,则对应位置的激活标志信号PN_flag=1,否则PN_flag=0;当位置N处的激活标志信号PN_flag=1时,对应车辆的车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图IN,以及本车的车道Lh,速度vh被记录;其中,对于驾驶意图IN的计算方法为
其中,IN的值为-1,0,1时分别表示此环境车有向右换道,车道保持,向左换道的意图;Flag_light为转向灯信号,其值为-1,0,1时分别表示此环境车有右,无,左的转向信号灯亮起;Δd为当前环境车相对于其所处车道垂直于车道线方向的侧向距离;dlane为相邻两车道间的距离;最终将这些信息存储于模块中。
所述步骤二的具体方法如下:
学习决策参数模块B基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值;将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程,包含状态设计,动作设计,回报设计;根据设计的马尔可夫决策过程模型以及所记录的数据,当系统收集的数据量达到一定阈值,使用基于核函数的最小二乘策略迭代强化学习方法进行学习;
2.1)马尔可夫决策过程模型的建立;
①状态设计;
对于环境车与本车的相对位置,以及对于环境车的位置的编号,为了完整的表述环境中的车流状态,位置N处的车辆的状态被考虑,分别为当前车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其相对于其车道中心线的侧向偏移Δd或转向灯信息Flag_light得到环境车的驾驶意图IN,其中下标N代表了位置N处对应的车辆;状态向量还包含本车的状态,本车的车道Lh,速度vh;这些状态量的数值均在感知信号收集及数据存储模块A中被读取,计算并被储存;因此,状态向量s可以表示为
当相应位置无环境车辆时,对应的状态向量值设为0;
②动作设计;
在本问题的框架下,换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移Ty,行为时间tf,加减速行为atar;这些决策参数可直接被应用于轨迹规划及运动控制模块C中的轨迹规划与运动控制控制器,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;因此,动作向量a可以表示为
a=(Ty,tf,atar)T, (3)
其中,行为终端侧向偏移Ty∈{-dlane,0,dlane};dlane为相邻两车道间的距离,分别对应向左换道,车道保持,向右换道;在动作空间中,将行为时间tf,加减速行为atar这两个连续变量在取值范围空间内离散得到离散的动作空间;因此行为时间tf的取值可表示为
加减速行为atar∈{-1.5,-0.5,0,0.5,1.5},这些参数化的决策用于描述人类的驾驶行为;
③回报设计;
在回报函数设计中,分别考虑安全性因素rs,快速性因素rr,平顺性因素rc,分别表示为:
rr=β1atar (6)
rr=rr-0.5若tf=4, (7)
rc=-β1|atar| (8)
rc=rc-0.5若tf=2, (9)
其中,dN是位置N处车辆相对于本车以其车道为基准的相对距离,dc是碰撞距离,TH=dN/vh是车头时距,THexp是期望的车头时距,LN是位置N处车辆车道,Lh为本车车道,β1,β2是权重系数,tf为行为时间,atar为加减速行为;因此,总的回报可用下式计算得到
r=rs+rr+rc+ra, (10)
其中,ra为轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报;
2.2)基于核函数的最小二乘策略迭代算法:在连续的状态空间中,使用函数逼近方法表征状态-动作值函数;使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量;首先,通过稀疏化过程得到核字典;依据状态对m=(s,a)中的状态向量s和动作向量a设计特征向量,可以表示为φ(m)=[sT,aT]T,选择径向基函数作为核函数,可以表示为:
其中,<·,·>表示两个向量的内积,φ(mi),φ(mj)分别是数据集中第i,j个状态对,k为权值向量,用于归一化不同范围的状态向量并区别动作向量与状态向量;样本集表示为M={m1,m2,...,mp},特征向量集为Φ={φ(m1),φ(m2),...,φ(mp)};基于特征向量集进行筛选,若当前特征向量与字典中的特征向量的线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近;
筛选过程描述为:假设遍历q个样本后,核字典Dt-1有t-1(1<t≤p)个特征向量;对于第q+1个样本,判断其是否应该加入核字典时,需要计算:
其中,λ=[λ12,...,λt-1]为权值向量,式(12)的解为:
其中,λ=[λ12,...,λt-1]为权值向量,[Wt-1]i,j=κ(mi,mj)为t-1×t-1维矩阵,w(q+1)(q+1)=κ(mq+1,mq+1)为当前特征向量mq+1与自身的内积值,wt-1(mq+1)=[κ(m1,mq+1),κ(m2,mq+1),...,κ(mt-1,mq+1)]T为字典中已有特征向量与当前特征向量st的内积t-1维列向量;如果ξ>μ,则该特征向量被加入核词典中,反之,则不加入;直到测试完所有的样本;
得到核字典后,使用核词典中的特征向量线性逼近状态-动作值函数;状态-动作值函数表示为:
其中,为状态mi的状态-动作值函数估计值,α=(α12,...,αt)是权重向量;φ(mj)为状态对mj的特征向量;对第ii个样本对mii以及第ii+1个样本对mii+1,增量式迭代更新方程为:
其中,wt(mii)=[κ(m1,mii),κ(m2,mii),...,κ(mt,mii)]T,wt(mii+1)=[κ(m1,mii+1),κ(m2,mii+1),...,κ(mt,mii+1)]T分别由mii,mii+1与字典中的特征向量计算得到;Aii-1,Aii为t*t维矩阵,bii-1,bii为t维列向量,分别对应前后两次迭代更新时矩阵A和向量b的值;αii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量;
基于状态-动作值函数的估计值对策略改进,更新后的策略可以表示为:
迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同,则算法收敛结束;
具体计算过程如下:
步骤(1):得到数据集M={m1,m2,...,mp},核函数κ,并初始化空核字典D0,阈值μ;
步骤(2):循环i=1:p,计算式(13);如果ξ>μ,将当前特征向量加入字典;否则,i=i+1;
步骤(3):得到核字典,进行策略迭代。初始化零矩阵A,零向量b,零权值向量α;
步骤(4):多次循环i=1:p,计算式(15);直到数据集策略与当前网络策略一致;
步骤(5):输出权值向量α。
所述步骤三的具体方法如下:
3.1)非线性轨迹规划及运动方程的建立:自行车车辆动力学模型可表示为:
其中,M是车辆质量;vx是纵向车速;vy为车辆侧向速度;wr是车辆横摆角速度;Fyf,Fyr分别车辆前轮侧向力和后轮侧向力;Iz为车辆沿z轴的转动惯量;lf,lr为前后轴轴距;由于执行跟踪模块D中对车辆的纵向速度以及转向运动进行跟踪控制,保证同时这里将控制量简化为前轮转角δf和纵向速度数值变化率a;轮胎侧向力Fyf,Fyr可表示为:
其中,δf为前轮转角;Cr,Cf分别为前后轮侧偏刚度;同时,根据车辆的运动关系有 为车辆的航向角;考虑车辆的运动在全局坐标系下的运动方程,非线性的车辆运动空间方程建立为
其中,状态变量为控制变量为u=[a,δf];Fyf,Fyr可由式(18)计算得到;X,Y是车辆在全局坐标系下的位置;
3.2)优化轨迹规划器的建立:首先是终端状态等式约束条件,其与不同的道路类型有关;对于一个任务,在预测时域终端,应满足一定的终端状态条件,才能保证任务的完成;对于直路环境中车道保持以及换道任务,任务完成的条件是在终端时刻横摆角速度,侧向速度回到0,航向角与当前车道的中心线一致,位置处于当前车道的车道中心线上;而弯道环境中,可放松对于横摆角速度,侧向速度回到0的等式约束;因此,直路环境中的终端等式约束为
其中,wr(tf),vy(tf),Y(tf)分别为预测时域终端时刻横摆角速度,侧向速度,航向角,横向位移;yl,f为期望的终端横向位移;车道保持时yl,f=0;换道时,yl,f=dlane,dlane为相邻车道间的侧向距离;弯道环境中的终端等式约束为
其中,为与车辆当前位置垂直距离最近一点目标车道中心线的航向角;P(tf)为预测时域终端时刻车辆位置;Plane为与车辆当前位置垂直距离最近一点目标车道中心线的位置;同时,控制量应满足不等式约束
其中,下标min,max分别代表相应变量的最小值和最大值;
目标函数考虑预测时域内各控制量前轮转角δf和纵向速度数值变化率的变化量Δδf和Δa以及纵向速度数值变化率a与期望加减速行为atar偏差的积分型性能指标,控制器的目标函数表示为:
其中为权重系数;
因此优化问题可建立为
其中,P(tf)∈Rac,P(tf)∈Rcd预测时域终端时刻车辆位置在直道和弯道;
3.3)轨迹规划及运动控制模块执行驾驶决策回报计算:将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块(C),轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报ra,其计算方程为
本发明的有益效果为:
1.本发明设计了适用于换道及车道保持行为的参数化学习控制系统,在不同的驾驶任务及环境中使用了一致的驾驶决策与轨迹规划形式;
2.本发明使用了基于强化学习算法设计的学习决策方法,决策同时包含行为终端侧向偏移,行为时间,加减速行为三个变量。
3.本发明使用模型预测控制方法,对决策参数值在线优化求解进行轨迹规划及运动控制,不同的终端状态约束适应于不同的驾驶任务及道路条件。
附图说明
图1为本车与环境车辆位置编号示意图;
图2为本发明的系统结构框图;
图3为本发明的系统的总体流程示意图;
图4为场景1下,本车(H)及环境车辆(N1-N8)的车道变化图;
图5为场景2下,本车(H)及环境车辆(N1-N8)的车道变化图;
具体实施方式
由于真实驾驶环境中驾驶员的驾驶行为特性在系统设计阶段未知,难以建立准确模型,系统需要通过不断学习提高系统整体性能。为了提高系统对不同驾驶员不同驾驶行为特性的适应能力,进而使系统获得更优驾驶性能的条件下亦保证安全,本发明基于参数化决策框架,设计了适用于换道及车道保持行为的参数化学习控制系统,其包括车辆在换道及车道保持场景下基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器。
一种适用于换道及车道保持行为的参数化学习决策控制系统,包含多个子模块,其结构框图如图2所示,主要包括:感知信号收集及数据存储模块A、学习决策参数模块B、轨迹规划及运动控制模块C和执行跟踪模块D,共同构成一个基于参数化决策框架,适用于换道及车道保持行为的参数化学习决策控制系统。其中感知信号收集及数据存储模块A,用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道,速度,加速度,以及相对于本车以其车道为基准的相对距离,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道),以及本车的车道,速度,并收集数据用于后续决策参数的学习训练。学习决策参数模块B强化学习方法,学习合适的决策参数值。对于城市工况,或高速公路工况,最常见的是换道及车道保持行为。其决策参数特征关系简单,具有一致性,即行为终端侧向偏移,行为时间,加减速行为的具体数值。将行为时间,加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间。进而进行状态设计,以及回报设计。当系统收集的数据量达到一定阈值,使用基于核函数的最小二乘策略迭代强化学习算法进行学习。轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解,用于车辆规划的实时轨迹规划及运动控制。感知信号收集及数据存储模块A判断的当前驾驶道路类型;基于模型预测控制方法,滚动优化轨迹。建立具有六维状态向量的非线性状态空间方程,并建立具有终端状态约束的约束方程,使得动作执行的过程可以配合不同道路类型。学习决策参数模块B输出的具体决策参数值确定控制器形式,对于直道与弯道两种不同的道路条件,相应的变换两种不同的终端状态等式约束条件,即直道条件下对车辆的终端侧向偏移,航向角,侧向速度,横摆角速度进行约束,以及弯道条件下,仅对车辆的终端侧向位移以及航向角进行约束。行为终端侧向偏移,行为时间,加减速行为,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;执行跟踪模块D,用于对算法输出的控制量进行跟踪控制,采用PID控制器实现,保证控制精度。
在此基础上,图3给出了本发明的整体技术方案流程图,具体实施过程为:
如图3所示,整个系统的学习过程是存在于人类驾驶员驾驶或虚拟仿真环境中。人类驾驶员驾驶时,仅感知信号收集及数据存储模块A和学习决策参数模块B工作。虚拟仿真环境学习,或验证学习效果时,模块A-D同时工作。感知信号收集及数据存储模块A,借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道,速度,加速度,以及相对于本车以其车道为基准的相对距离,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道),以及本车的车道,速度,并将信息存储于模块中。学习决策参数模块B中的样本值达到阈值(103)或数据更新量大于20%后,根据设计的基于核函数的最小二乘策略迭代强化学习算法,对决策参数进行学习,并更新;否则继续采集人类驾驶或在仿真环境中使用随机策略搜索动作空间。轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解进行轨迹规划及运动控制。得到控制量前轮转角δf和纵向速度数值变化率a,最终输出作用于执行跟踪模块D。由于需要保证车辆执行器对于控制量的控制精度,因此车辆执行控制模块D采用反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行。
一种适用于换道及车道保持行为的参数化学习决策控制方法,该方法包括以下步骤:
步骤一、通过感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道,速度,加速度,以及相对于本车以其车道为基准的相对距离,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道),以及本车的车道,速度,并将信息存储于模块中,具体方法如下:
在感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆状态信息。如图1所示,分别对不同位置进行如图所示的标号,并筛选对应位置处的目标车辆。如果相应位置有目标车辆,则对应位置的激活标志信号PN_flag=1,否则PN_flag=0。当位置N处的激活标志信号PN_flag=1时,对应车辆的车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图IN,以及本车的车道Lh,速度vh被记录。其中对于驾驶意图IN的计算方法为
其中,IN的值为-1,0,1时分别表示此环境车有向右换道,车道保持,向左换道的意图,Flag_light为转向灯信号,其值为-1,0,1时分别表示此环境车有右,无,左的转向信号灯亮起,Δd为当前环境车相对于其所处车道垂直于车道线方向的侧向距离,dlane为相邻两车道间的距离,最终将这些信息存储于模块中。
步骤二、通过学习决策参数模块B学习合适的决策参数值,即行为终端侧向偏移,行为时间,加减速行为的具体数值,将行为时间,加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间;基于核函数的最小二乘策略迭代强化学习方法,进行状态设计,以及回报设计,当系统收集的数据量达到一定阈值,使用此强化学习算法进行学习,具体方法如下:
学习决策参数模块B基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值。将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程,包含状态设计,动作设计,回报设计。根据设计的马尔可夫决策过程模型以及所记录的数据,当系统收集的数据量达到一定阈值,使用基于核函数的最小二乘策略迭代强化学习方法进行学习。
2.1)马尔可夫决策过程模型的建立;
①状态设计,根据图1中,对于环境车与本车的相对位置,以及对于环境车的位置的编号,为了完整的表述环境中的车流状态,位置N处的车辆的状态被考虑,分别为当前车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其相对于其车道中心线的侧向偏移Δd或转向灯信息Flag_light得到环境车的驾驶意图IN,其中下标N代表了位置N处对应的车辆。状态向量还包含本车的状态,本车的车道Lh,速度vh。这些状态量的数值均在感知信号收集及数据存储模块A中被读取,计算并被储存。因此,状态向量s可以表示为
当相应位置无环境车辆时,对应的状态向量值设为0。
②动作设计,在本问题的框架下,换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移Ty,行为时间tf,加减速行为atar。这些决策参数可直接被应用于轨迹规划及运动控制模块C中的轨迹规划与运动控制控制器,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项。因此,动作向量a可以表示为
a=(Ty,tf,atar)T, (3)
其中,行为终端侧向偏移Ty∈{-dlane,0,dlane},dlane为相邻两车道间的距离,分别对应向左换道,车道保持,向右换道。在动作空间中,将行为时间tf,加减速行为atar这两个连续变量在取值范围空间内离散得到离散的动作空间。因此行为时间tf的取值可表示为
加减速行为atar∈{-1.5,-0.5,0,0.5,1.5}。这些参数化的决策可用于描述人类的驾驶行为,如表1所示。
表1参数化决策与人类决策类比举例
③回报设计。在回报函数设计中,分别考虑安全性因素rs,快速性因素rr,平顺性因素rc,分别表示为:
rr=βi atar (6)
rr=rr-0.5若tf=4, (7)
rc=-β1|atar| (8)
rc=rc-0.5若tf=2, (9)
其中,dN是位置N处车辆相对于本车以其车道为基准的相对距离,dc是碰撞距离,TH=dN/vh是车头时距,THexp是期望的车头时距,LN是位置N处车辆车道,Lh为本车车道,β12是权重系数,tf为行为时间,atar为加减速行为。因此,总的回报可用下式计算得到
r=rs+rr+rc+ra, (10)
这里我们将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块C,因此ra为轨迹规划及运动控制模块C进行轨迹规划后返回的回报。其具体取值将在轨迹规划及运动控制模块C进一步说明。
2.2)基于核函数的最小二乘策略迭代算法:在连续的状态空间中,一般使用函数逼近方法表征状态-动作值函数;使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量;首先,通过稀疏化过程得到核字典。依据状态对m=(s,a)中的状态向量s和动作向量a设计特征向量,可以表示为φ(m)=[sT,aT]T,选择径向基函数作为核函数,可以表示为:
其中,<·,·>表示两个向量的内积,φ(mi),φ(mj)分别是数据集中第i,j个状态对,k为权值向量,用于归一化不同范围的的状态向量并区别动作向量与状态向量。样本集可以表示为M={m1,m2,...,mp},特征向量集为Φ={φ(m1),φ(m2),...,φ(mp)};基于特征向量集进行筛选,若当前特征向量与字典中的特征向量的线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近。
筛选过程可以描述为:假设遍历q个样本后,核字典Dt-1有t-1(1<t≤p)个特征向量。对于第q+1个样本,判断其是否应该加入核字典时,需要计算:
其中,λ=[λ12,...,λt-1]为权值向量,式(12)的解为:
其中,λ=[λ12,...,λt-1]为权值向量,[Wt-1]i,j=κ(mi,mj)为t-1×t-1维矩阵,w(q+1)(q+1)=κ(mq+1,mq+1)为当前特征向量mq+1与自身的内积值,wt-1(mq+1)=[κ(m1,mq+1),κ(m2,mq+1),...,κ(mt-1,mq+1)]T为字典中已有特征向量与当前特征向量st的内积t-1维列向量;如果ξ>μ,则该特征向量被加入核词典中,反之,则不加入;直到测试完所有的样本;
得到核字典后,使用核词典中的特征向量线性逼近状态-动作值函数。状态-动作值函数可以表示为:
其中,为状态mi的状态-动作值函数估计值,α=(α12,...,αt)是权重向量;φ(mj)为状态对mj的特征向量;对第ii个样本对mii以及第ii+1个样本对mii+1,增量式迭代更新方程为:
其中,wt(mii)=[κ(m1,mii),κ(m2,mii),...,κ(mt,mii)]T,wt(mii+1)=[κ(m1,mii+1),κ(m2,mii+1),...,κ(mt,mii+1)]T分别由mii,mii+1与字典中的特征向量计算得到;Aii-1,Aii为t*t维矩阵,bii-1,bii为t维列向量,分别对应前后两次迭代更新时矩阵A和向量b的值;αii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量;
基于状态-动作值函数的估计值对策略改进。更新后的策略可以表示为:
迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同,则算法收敛结束;
具体计算过程如下:
步骤(1):得到数据集M={m1,m2,...,mp},核函数κ,并初始化空核字典D0,阈值μ;
步骤(2):循环i=1:p,计算式(13)。如果ξ>μ,将当前特征向量加入字典;否则,i=i+1;
步骤(3):得到核字典,进行策略迭代。初始化零矩阵A,零向量b,零权值向量α;
步骤(4):多次循环i=1:p,计算式(15)。直到数据集策略与当前网络策略一致;
步骤(5):输出权值向量α。
步骤三、通过轨迹规划及运动控制模块(C)根据学习决策参数模块(B)输出的决策参数数值在线优化求解进行轨迹规划及运动控制,使用包含车辆动力学方程,具有六维状态向量的状态空间方程,并建立具有终端状态约束的约束方程,使得动作执行的过程可以配合不同道路类型;换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移,行为时间,加减速行为,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;对于直道与弯道两种不同的道路条件,相应的变换两种不同的终端状态等式约束条件,即直道条件下对车辆的终端侧向偏移,航向角,侧向速度,横摆角速度进行约束,以及弯道条件下,仅对车辆的终端侧向位移以及航向角进行约束;具体方法如下:
3.1)非线性轨迹规划及运动方程的建立:自行车车辆动力学模型可表示为:
其中,M是车辆质量,vx是纵向车速,vy为车辆侧向速度,wr是车辆横摆角速度,Fyf,Fyr分别车辆前轮侧向力和后轮侧向力,Iz为车辆沿z轴的转动惯量,lf,lr为前后轴轴距。由于执行跟踪模块D中可对车辆的纵向速度以及转向运动进行跟踪控制,保证同时这里将控制量简化为前轮转角δf和纵向速度数值变化率a。轮胎侧向力Fyf,Fyr可表示为:
其中,δf为前轮转角,Cr,Cf分别为前后轮侧偏刚度;同时,根据车辆的运动关系有 为车辆的航向角。以及考虑车辆的运动在全局坐标系下的运动方程,非线性的车辆运动空间方程建立为
其中,状态变量为控制变量为u=[a,δf]。Fyf,Fyr可由式(18)计算得到。X,Y是车辆在全局坐标系下的位置。
3.2)优化轨迹规划器的建立:首先是终端状态等式约束条件,其与不同的道路类型有关。其思想是,对于一个任务,在预测时域终端,应满足一定的终端状态条件,才能保证任务的完成。对于直路环境中车道保持以及换道任务,任务完成的条件是在终端时刻横摆角速度,侧向速度回到0,航向角与当前车道的中心线一致,位置处于当前车道的车道中心线上;而弯道环境中,可放松对于横摆角速度,侧向速度回到0的等式约束。因此,直路环境中的终端等式约束为
其中,ωr(tf),vy(tf),Y(tf)分别为预测时域终端时刻横摆角速度,侧向速度,航向角,横向位移,yl,f为期望的终端横向位移,车道保持时yl,f=0;换道时,yl,f=dlane,dlane为相邻车道间的侧向距离;弯道环境中的终端等式约束为
其中,为与车辆当前位置垂直距离最近一点目标车道中心线的航向角,P(tf)预测时域终端时刻车辆位置,Plane与车辆当前位置垂直距离最近一点目标车道中心线的位置。同时,控制量应满足不等式约束
其中,下标min,max分别代表相应变量的最小值和最大值;
目标函数考虑预测时域内各控制量前轮转角δf和纵向速度数值变化率的变化量Δδf和Δa以及纵向速度数值变化率a与期望加减速行为atar偏差的积分型性能指标,控制器的目标函数可以表示为:
其中,为权重系数。
因此优化问题可建立为
其中,P(tf)∈Rac,P(tf)∈Rcd预测时域终端时刻车辆位置在直道和弯道。
3.3)轨迹规划及运动控制模块执行驾驶决策回报计算:本申请将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块C,轨迹规划及运动控制模块C进行轨迹规划后返回的回报ra,其计算方程为
最后,我们在学习后对驾驶策略进行了验证,如图4所示的驾驶场景1中,环境车N1在车道2保持行驶,环境车先在车道2行驶,后换入车道1,环境车沿车道3保持行驶;环境车由车道3换入车道4后又换入车道5最终保持行驶。此种场景下,本车自车道3先连续换道换入车道5后换入车道2最终换入车道1。
如图5所示的驾驶场景2中,环境车N3在车道2保持行驶一段时间后换入车道1;环境车N4由车道2换入车道3后又换入车道4;环境车N5沿车道3保持行驶;环境车N7在车道4保持行驶一段时间后换入车道3;环境车N8沿车道4保持行驶;此种场景下,本车自车道3先连续换道换入车道1后保持行驶。
由此可看到本车可根据所处环境并自主地切换车道保持与换道操作,以及进行主动换道操作,此系统是一种适用于换道及车道保持行为的参数化学习决策控制系统。

Claims (5)

1.一种适用于换道及车道保持的参数化学习决策控制系统,其特征在于,该系统包括感知信号收集及数据存储模块(A)、学习决策参数模块(B)、轨迹规划及运动控制模块(C)和执行跟踪模块(D);
所述感知信号收集及数据存储模块(A),用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理,并收集数据用于后续决策参数的学习训练;
所述学习决策参数模块(B),用于对收集决策数据进行学习,当系统收集的数据量达到一定阈值或得到一定程度的更新,系统会不断进行学习,基于强化学习方法,学习合适的决策参数值;
所述轨迹规划及运动控制模块(C),用于车辆规划的实时轨迹规划及运动控制,基于模型预测控制方法,使用学习决策参数模块(B)输出的具体决策参数值大小及感知信号收集及数据存储模块(A)判断的当前驾驶道路类型,确定控制器形式,并滚动优化轨迹;
所述执行跟踪模块(D),用于对算法输出的控制量进行跟踪控制,采用PID控制器实现,保证控制精度;
所述感知信号收集及数据存储模块(A)与学习决策参数模块(B)、轨迹规划及运动控制模块(C)以及执行跟踪模块(D)相连;所述学习决策参数模块(B)与轨迹规划及运动控制模块(C)相连;所述轨迹规划及运动控制模块(C)与执行跟踪模块(D)相连。
2.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法,其特征在于,该方法包括以下步骤:
步骤一、通过感知信号收集及数据存储模块(A)获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道,速度,加速度,以及相对于本车以其车道为基准的相对距离,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图即保持或者换道,以及本车的车道,速度,并将信息存储于模块中;
步骤二、通过学习决策参数模块(B)学习合适的决策参数值,即行为终端侧向偏移,行为时间,加减速行为的具体数值,将行为时间,加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间;基于核函数的最小二乘策略迭代强化学习方法,进行状态设计,以及回报设计,当系统收集的数据量达到一定阈值,使用此强化学习算法进行学习;
步骤三、通过轨迹规划及运动控制模块(C)根据学习决策参数模块(B)输出的决策参数数值在线优化求解进行轨迹规划及运动控制,使用包含车辆动力学方程,具有六维状态向量的状态空间方程,并建立具有终端状态约束的约束方程,使得动作执行的过程可以配合不同道路类型;换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移,行为时间,加减速行为,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;对于直道与弯道两种不同的道路条件,相应的变换两种不同的终端状态等式约束条件,即直道条件下对车辆的终端侧向偏移,航向角,侧向速度,横摆角速度进行约束,以及弯道条件下,仅对车辆的终端侧向位移以及航向角进行约束;
步骤四、通过执行跟踪模块(D)对算法输出的控制量进行跟踪控制,采用PID控制器实现,保证控制精度。
3.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法,其特征在于,所述步骤一的具体方法如下:
在感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的状态信息,并且对周围车辆的不同位置进行标号,并筛选对应位置处的目标车辆;如果相应位置有目标车辆,则对应位置的激活标志信号PN_flag=1,否则PN_flag=0;当位置N处的激活标志信号PN_flag=1时,对应车辆的车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图IN,以及本车的车道Lh,速度vh被记录;其中,对于驾驶意图IN的计算方法为
其中,IN的值为-1,0,1时分别表示此环境车有向右换道,车道保持,向左换道的意图;Flag_light为转向灯信号,其值为-1,0,1时分别表示此环境车有右,无,左的转向信号灯亮起;Δd为当前环境车相对于其所处车道垂直于车道线方向的侧向距离;dlane为相邻两车道间的距离;最终将这些信息存储于模块中。
4.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法,其特征在于,所述步骤二的具体方法如下:
学习决策参数模块(B)基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值;将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程,包含状态设计,动作设计,回报设计;根据设计的马尔可夫决策过程模型以及所记录的数据,当系统收集的数据量达到一定阈值,使用基于核函数的最小二乘策略迭代强化学习方法进行学习;
2.1)马尔可夫决策过程模型的建立;
①状态设计;
对于环境车与本车的相对位置,以及对于环境车的位置的编号,为了完整的表述环境中的车流状态,位置N处的车辆的状态被考虑,分别为当前车道LN,速度vN,加速度aN,以及相对于本车以其车道为基准的相对距离dN,并通过其相对于其车道中心线的侧向偏移Δd或转向灯信息Flag_light得到环境车的驾驶意图IN,其中下标N代表了位置N处对应的车辆;状态向量还包含本车的状态,本车的车道Lh,速度vh;这些状态量的数值均在感知信号收集及数据存储模块A中被读取,计算并被储存;因此,状态向量s可以表示为
当相应位置无环境车辆时,对应的状态向量值设为0;
②动作设计;
在本问题的框架下,换道及车道保持行为场景对应的决策参数统一且确定,为行为终端侧向偏移Ty,行为时间tf,加减速行为atar;这些决策参数可直接被应用于轨迹规划及运动控制模块(C)中的轨迹规划与运动控制控制器,分别对应模型预测控制器中的终端侧向偏移等式约束,预测时域,目标函数中的加速度参考项;因此,动作向量a可以表示为
a=(Ty,tf,atar)T, (3)
其中,行为终端侧向偏移Ty∈{-dlane,0,dlane};dlane为相邻两车道间的距离,分别对应向左换道,车道保持,向右换道;在动作空间中,将行为时间tf,加减速行为atar这两个连续变量在取值范围空间内离散得到离散的动作空间;因此行为时间tf的取值可表示为
加减速行为atar∈{-1.5,-0.5,0,0.5,1.5},这些参数化的决策用于描述人类的驾驶行为;
③回报设计;
在回报函数设计中,分别考虑安全性因素rs,快速性因素rr,平顺性因素rc,分别表示为:
rr=β1atar (6)
rr=rr-0.5若tf=4, (7)
rc=-β1|atar| (8)
rc=rc-0.5 若tf=2, (9)
其中,dN是位置N处车辆相对于本车以其车道为基准的相对距离,dc是碰撞距离,TH=dN/vh是车头时距,THexp是期望的车头时距,LN是位置N处车辆车道,Lh为本车车道,β12是权重系数,tf为行为时间,atar为加减速行为;因此,总的回报可用下式计算得到
r=rs+rr+rc+ra, (10)
其中,ra为轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报;
2.2)基于核函数的最小二乘策略迭代算法:在连续的状态空间中,使用函数逼近方法表征状态-动作值函数;使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量;首先,通过稀疏化过程得到核字典;依据状态对m=(s,a)中的状态向量s和动作向量a设计特征向量,可以表示为φ(m)=[sT,aT]T,选择径向基函数作为核函数,可以表示为:
其中,<·,·>表示两个向量的内积,φ(mi),φ(mj)分别是数据集中第i,j个状态对,k为权值向量,用于归一化不同范围的状态向量并区别动作向量与状态向量;样本集表示为M={m1,m2,...,mp},特征向量集为Φ={φ(m1),φ(m2),...,φ(mp)};基于特征向量集进行筛选,若当前特征向量与字典中的特征向量的线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近;
筛选过程描述为:假设遍历q个样本后,核字典Dt-1有t-1(1<t≤p)个特征向量;对于第q+1个样本,判断其是否应该加入核字典时,需要计算:
其中,λ=[λ12,...,λt-1]为权值向量,式(12)的解为:
其中,λ=[λ12,...,λt-1]为权值向量,[Wt-1]i,j=κ(mi,mj)为t-1×t-1维矩阵,w(q+1)(q+1)=κ(mq+1,mq+1)为当前特征向量mq+1与自身的内积值,wt-1(mq+1)=[κ(m1,mq+1),κ(m2,mq+1),...,κ(mt-1,mq+1)]T为字典中已有特征向量与当前特征向量st的内积t-1维列向量;如果ξ>μ,则该特征向量被加入核词典中,反之,则不加入;直到测试完所有的样本;
得到核字典后,使用核词典中的特征向量线性逼近状态-动作值函数;状态-动作值函数表示为:
其中,为状态mi的状态-动作值函数估计值,α=(α12,...,αt)是权重向量;φ(mj)为状态对mj的特征向量;对第ii个样本对mii以及第ii+1个样本对mii+1,增量式迭代更新方程为:
其中,wt(mii)=[κ(m1,mii),κ(m2,mii),...,κ(mt,mii)]T,wt(mii+1)=[κ(m1,mii+1),κ(m2,mii+1),...,κ(mt,mii+1)]T分别由mii,mii+1与字典中的特征向量计算得到;Aii-1,Aii为t*t维矩阵,bii-1,bii为t维列向量,分别对应前后两次迭代更新时矩阵A和向量b的值;αii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量;
基于状态-动作值函数的估计值对策略改进,更新后的策略可以表示为:
迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同,则算法收敛结束;
具体计算过程如下:
步骤(1):得到数据集M={m1,m2,...,mp},核函数κ,并初始化空核字典D0,阈值μ;
步骤(2):循环i=1:p,计算式(13);如果ξ>μ,将当前特征向量加入字典;否则,i=i+1;
步骤(3):得到核字典,进行策略迭代。初始化零矩阵A,零向量b,零权值向量α;
步骤(4):多次循环i=1:p,计算式(15);直到数据集策略与当前网络策略一致;
步骤(5):输出权值向量α。
5.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法,其特征在于,所述步骤三的具体方法如下:
3.1)非线性轨迹规划及运动方程的建立:自行车车辆动力学模型可表示为:
其中,M是车辆质量;vx是纵向车速;vy为车辆侧向速度;wr是车辆横摆角速度;Fyf,Fyr分别车辆前轮侧向力和后轮侧向力;Iz为车辆沿z轴的转动惯量;lf,lr为前后轴轴距;由于执行跟踪模块(D)中对车辆的纵向速度以及转向运动进行跟踪控制,保证同时这里将控制量简化为前轮转角δf和纵向速度数值变化率a;轮胎侧向力Fyf,Fyr可表示为:
其中,δf为前轮转角;Cr,Cf分别为前后轮侧偏刚度;同时,根据车辆的运动关系有 为车辆的航向角;考虑车辆的运动在全局坐标系下的运动方程,非线性的车辆运动空间方程建立为
其中,状态变量为控制变量为u=[a,δf];Fyf,Fyr可由式(18)计算得到;X,Y是车辆在全局坐标系下的位置;
3.2)优化轨迹规划器的建立:首先是终端状态等式约束条件,其与不同的道路类型有关;对于一个任务,在预测时域终端,应满足一定的终端状态条件,才能保证任务的完成;对于直路环境中车道保持以及换道任务,任务完成的条件是在终端时刻横摆角速度,侧向速度回到0,航向角与当前车道的中心线一致,位置处于当前车道的车道中心线上;而弯道环境中,可放松对于横摆角速度,侧向速度回到0的等式约束;因此,直路环境中的终端等式约束为
其中,wr(tf),vy(tf),Y(tf)分别为预测时域终端时刻横摆角速度,侧向速度,航向角,横向位移;yl,f为期望的终端横向位移;车道保持时yl,f=0;换道时,yl,f=dlane,dlane为相邻车道间的侧向距离;弯道环境中的终端等式约束为
其中,为与车辆当前位置垂直距离最近一点目标车道中心线的航向角;P(tf)为预测时域终端时刻车辆位置;Plane为与车辆当前位置垂直距离最近一点目标车道中心线的位置;同时,控制量应满足不等式约束
其中,下标min,max分别代表相应变量的最小值和最大值;
目标函数考虑预测时域内各控制量前轮转角δf和纵向速度数值变化率的变化量Δδf和Δa以及纵向速度数值变化率a与期望加减速行为atar偏差的积分型性能指标,控制器的目标函数表示为:
其中为权重系数;
因此优化问题可建立为
其中,P(tf)∈Rac,P(tf)∈Rcd预测时域终端时刻车辆位置在直道和弯道;
3.3)轨迹规划及运动控制模块执行驾驶决策回报计算:将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块(C),轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报ra,其计算方程为
CN201910952119.1A 2019-10-08 2019-10-08 适用于换道及车道保持的参数化学习决策控制系统及方法 Active CN110568760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952119.1A CN110568760B (zh) 2019-10-08 2019-10-08 适用于换道及车道保持的参数化学习决策控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952119.1A CN110568760B (zh) 2019-10-08 2019-10-08 适用于换道及车道保持的参数化学习决策控制系统及方法

Publications (2)

Publication Number Publication Date
CN110568760A true CN110568760A (zh) 2019-12-13
CN110568760B CN110568760B (zh) 2021-07-02

Family

ID=68784244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952119.1A Active CN110568760B (zh) 2019-10-08 2019-10-08 适用于换道及车道保持的参数化学习决策控制系统及方法

Country Status (1)

Country Link
CN (1) CN110568760B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192284A (zh) * 2019-12-27 2020-05-22 吉林大学 一种车载激光点云分割方法及系统
CN111746544A (zh) * 2020-07-13 2020-10-09 吉林大学 一种体现驾驶员个性化行为的车道变换方法
CN111967094A (zh) * 2020-09-01 2020-11-20 吉林大学 一种基于Mobileye提供车道线方程的后向车道线推算方法
CN111959492A (zh) * 2020-08-31 2020-11-20 重庆大学 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112051846A (zh) * 2020-08-17 2020-12-08 华中科技大学 一种全转向移动机器人的多模式切换控制方法及系统
CN112046484A (zh) * 2020-09-21 2020-12-08 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN112578672A (zh) * 2020-12-16 2021-03-30 吉林大学青岛汽车研究院 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN112590792A (zh) * 2020-12-18 2021-04-02 的卢技术有限公司 一种基于深度强化学习算法的车辆汇合控制方法
WO2021077725A1 (zh) * 2019-10-21 2021-04-29 南京航空航天大学 一种基于驾驶意图的周围车辆运动状态预测系统及方法
CN112896191A (zh) * 2021-03-08 2021-06-04 京东鲲鹏(江苏)科技有限公司 轨迹处理方法、装置、电子设备和计算机可读介质
CN112937608A (zh) * 2021-03-31 2021-06-11 吉林大学 一种基于轨迹预测的冰雪环境无人驾驶车辆一体化滚动决策方法、装置及存储介质
CN112965489A (zh) * 2021-02-05 2021-06-15 北京理工大学 一种基于碰撞检测的智能车高速换道规划方法
CN113177663A (zh) * 2021-05-20 2021-07-27 启迪云控(上海)汽车科技有限公司 一种智能网联应用场景的处理方法及系统
CN113191248A (zh) * 2021-04-25 2021-07-30 国能智慧科技发展(江苏)有限公司 基于视频联动与智能物联网的车辆偏离路线检测系统
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113511222A (zh) * 2021-08-27 2021-10-19 清华大学 场景自适应式车辆交互行为决策与预测方法及装置
CN113548047A (zh) * 2021-06-08 2021-10-26 重庆大学 一种基于深度学习的个性化车道保持辅助方法及装置
WO2021212728A1 (zh) * 2020-04-24 2021-10-28 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN114084155A (zh) * 2021-11-15 2022-02-25 清华大学 预测型智能汽车决策控制方法、装置、车辆及存储介质
CN114114929A (zh) * 2022-01-21 2022-03-01 北京航空航天大学 一种基于lssvm的无人驾驶车辆路径跟踪方法
CN114217601A (zh) * 2020-09-03 2022-03-22 财团法人车辆研究测试中心 自驾车的混合决策方法及其系统
CN114620059A (zh) * 2020-12-14 2022-06-14 广州汽车集团股份有限公司 一种自动驾驶方法及其系统、计算机可读存储介质
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
WO2022237115A1 (zh) * 2021-05-13 2022-11-17 中车长春轨道客车股份有限公司 一种轨道车辆的能力管理及节能辅助驾驶方法及相关装置
CN116088321A (zh) * 2023-04-12 2023-05-09 宁波吉利汽车研究开发有限公司 一种自动驾驶决策控制方法、装置及电子设备
WO2023082726A1 (zh) * 2021-11-12 2023-05-19 京东鲲鹏(江苏)科技有限公司 换道策略生成方法和装置、计算机存储介质、电子设备
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN106114501A (zh) * 2016-06-23 2016-11-16 吉林大学 一种具有多模式的基于线控转向的换道避撞控制方法
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
US20180093671A1 (en) * 2017-11-21 2018-04-05 GM Global Technology Operations LLC Systems and methods for adjusting speed for an upcoming lane change in autonomous vehicles
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109204308A (zh) * 2017-07-03 2019-01-15 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
CN110187639A (zh) * 2019-06-27 2019-08-30 吉林大学 一种基于参数决策框架的轨迹规划控制方法
US20190302785A1 (en) * 2018-04-02 2019-10-03 Sony Corporation Vision-based sample-efficient reinforcement learning framework for autonomous driving

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN106114501A (zh) * 2016-06-23 2016-11-16 吉林大学 一种具有多模式的基于线控转向的换道避撞控制方法
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN109204308A (zh) * 2017-07-03 2019-01-15 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
US20180093671A1 (en) * 2017-11-21 2018-04-05 GM Global Technology Operations LLC Systems and methods for adjusting speed for an upcoming lane change in autonomous vehicles
US20190302785A1 (en) * 2018-04-02 2019-10-03 Sony Corporation Vision-based sample-efficient reinforcement learning framework for autonomous driving
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN110187639A (zh) * 2019-06-27 2019-08-30 吉林大学 一种基于参数决策框架的轨迹规划控制方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHANG WANG 等: "Cognitive Competence Improvement for Autonomous Vehicles: A Lane Change Identification Model for Distant Preceding Vehicles", 《DIGITAL OBJECT IDENTIFIER》 *
JINLONG HONG: "Engine Speed Control During Gear Shifting of AMT HEVs with Identified Intake-to-Power Delay", 《IFAC-PAPERSONLINE》 *
JUNJIE WANG 等: "Lane Change Decision-making through Deep Reinforcement Learning with Rule-based Constraints", 《IJCNN 2019. INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
YUXIANG ZHANG 等: "Deterministic Promotion Reinforcement Learning Applied to Longitudinal Velocity Control for Automated Vehicles", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
YUXIANG ZHANG 等: "Velocity control in a right-turn across traffic scenario for autonomous vehicles using kernel-based reinforcement learning", 《CHINESE AUTOMATION CONGRESS (CAC)》 *
朱冰 等: "基于深度强化学习的车辆跟驰控制", 《中国公路学报》 *
陈虹 等: "面向动态避障的智能汽车滚动时域路径规划", 《中国公路学报》 *
陈银银: "面向无人驾驶的增强学习算法研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021077725A1 (zh) * 2019-10-21 2021-04-29 南京航空航天大学 一种基于驾驶意图的周围车辆运动状态预测系统及方法
CN111192284B (zh) * 2019-12-27 2022-04-05 吉林大学 一种车载激光点云分割方法及系统
CN111192284A (zh) * 2019-12-27 2020-05-22 吉林大学 一种车载激光点云分割方法及系统
WO2021212728A1 (zh) * 2020-04-24 2021-10-28 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN111746544B (zh) * 2020-07-13 2021-05-25 吉林大学 一种体现驾驶员个性化行为的车道变换方法
CN111746544A (zh) * 2020-07-13 2020-10-09 吉林大学 一种体现驾驶员个性化行为的车道变换方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN111985614B (zh) * 2020-07-23 2023-03-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN114074680B (zh) * 2020-08-11 2023-08-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN112051846B (zh) * 2020-08-17 2021-11-19 华中科技大学 一种全转向移动机器人的多模式切换控制方法及系统
CN112051846A (zh) * 2020-08-17 2020-12-08 华中科技大学 一种全转向移动机器人的多模式切换控制方法及系统
CN111959492B (zh) * 2020-08-31 2022-05-20 重庆大学 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN111959492A (zh) * 2020-08-31 2020-11-20 重庆大学 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN111967094B (zh) * 2020-09-01 2022-08-16 吉林大学 一种基于Mobileye提供车道线方程的后向车道线推算方法
CN111967094A (zh) * 2020-09-01 2020-11-20 吉林大学 一种基于Mobileye提供车道线方程的后向车道线推算方法
CN114217601A (zh) * 2020-09-03 2022-03-22 财团法人车辆研究测试中心 自驾车的混合决策方法及其系统
CN114217601B (zh) * 2020-09-03 2024-02-27 财团法人车辆研究测试中心 自驾车的混合决策方法及其系统
CN112046484B (zh) * 2020-09-21 2021-08-03 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN112046484A (zh) * 2020-09-21 2020-12-08 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN114620059A (zh) * 2020-12-14 2022-06-14 广州汽车集团股份有限公司 一种自动驾驶方法及其系统、计算机可读存储介质
CN114620059B (zh) * 2020-12-14 2024-05-17 广州汽车集团股份有限公司 一种自动驾驶方法及其系统、计算机可读存储介质
CN112578672B (zh) * 2020-12-16 2022-12-09 吉林大学青岛汽车研究院 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN112578672A (zh) * 2020-12-16 2021-03-30 吉林大学青岛汽车研究院 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN112590792B (zh) * 2020-12-18 2024-05-10 的卢技术有限公司 一种基于深度强化学习算法的车辆汇合控制方法
CN112590792A (zh) * 2020-12-18 2021-04-02 的卢技术有限公司 一种基于深度强化学习算法的车辆汇合控制方法
CN112965489A (zh) * 2021-02-05 2021-06-15 北京理工大学 一种基于碰撞检测的智能车高速换道规划方法
CN112896191A (zh) * 2021-03-08 2021-06-04 京东鲲鹏(江苏)科技有限公司 轨迹处理方法、装置、电子设备和计算机可读介质
CN112937608B (zh) * 2021-03-31 2022-06-21 吉林大学 一种基于轨迹预测的冰雪环境无人驾驶车辆一体化滚动决策方法、装置及存储介质
CN112937608A (zh) * 2021-03-31 2021-06-11 吉林大学 一种基于轨迹预测的冰雪环境无人驾驶车辆一体化滚动决策方法、装置及存储介质
CN113191248A (zh) * 2021-04-25 2021-07-30 国能智慧科技发展(江苏)有限公司 基于视频联动与智能物联网的车辆偏离路线检测系统
WO2022237115A1 (zh) * 2021-05-13 2022-11-17 中车长春轨道客车股份有限公司 一种轨道车辆的能力管理及节能辅助驾驶方法及相关装置
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113177663A (zh) * 2021-05-20 2021-07-27 启迪云控(上海)汽车科技有限公司 一种智能网联应用场景的处理方法及系统
CN113177663B (zh) * 2021-05-20 2023-11-24 云控智行(上海)汽车科技有限公司 一种智能网联应用场景的处理方法及系统
CN113548047A (zh) * 2021-06-08 2021-10-26 重庆大学 一种基于深度学习的个性化车道保持辅助方法及装置
CN113511222A (zh) * 2021-08-27 2021-10-19 清华大学 场景自适应式车辆交互行为决策与预测方法及装置
CN113511222B (zh) * 2021-08-27 2023-09-26 清华大学 场景自适应式车辆交互行为决策与预测方法及装置
WO2023082726A1 (zh) * 2021-11-12 2023-05-19 京东鲲鹏(江苏)科技有限公司 换道策略生成方法和装置、计算机存储介质、电子设备
CN114084155B (zh) * 2021-11-15 2023-10-20 清华大学 预测型智能汽车决策控制方法、装置、车辆及存储介质
CN114084155A (zh) * 2021-11-15 2022-02-25 清华大学 预测型智能汽车决策控制方法、装置、车辆及存储介质
CN114114929A (zh) * 2022-01-21 2022-03-01 北京航空航天大学 一种基于lssvm的无人驾驶车辆路径跟踪方法
CN114114929B (zh) * 2022-01-21 2022-04-29 北京航空航天大学 一种基于lssvm的无人驾驶车辆路径跟踪方法
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN116088321A (zh) * 2023-04-12 2023-05-09 宁波吉利汽车研究开发有限公司 一种自动驾驶决策控制方法、装置及电子设备
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN116476825B (zh) * 2023-05-19 2024-02-27 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Also Published As

Publication number Publication date
CN110568760B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110568760B (zh) 适用于换道及车道保持的参数化学习决策控制系统及方法
CN111845774B (zh) 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法
CN111338346B (zh) 一种自动驾驶控制方法、装置、车辆及存储介质
Chen et al. Human-centered trajectory tracking control for autonomous vehicles with driver cut-in behavior prediction
Rupp et al. Survey on control schemes for automated driving on highways
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN113671962B (zh) 一种无人驾驶铰接式清扫车的横向控制方法
Yoganandhan et al. Fundamentals and development of self-driving cars
Koga et al. Realization of different driving characteristics for autonomous vehicle by using model predictive control
Wu et al. Route planning and tracking control of an intelligent automatic unmanned transportation system based on dynamic nonlinear model predictive control
Kebbati et al. Lateral control for autonomous wheeled vehicles: A technical review
WO2024088068A1 (zh) 一种基于模型预测控制和强化学习融合的自动泊车决策方法
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
CN114030485A (zh) 一种考虑附着系数的自动驾驶汽车类人换道决策规划方法
Azam et al. N 2 C: neural network controller design using behavioral cloning
CN113184040B (zh) 一种基于驾驶人转向意图的无人车线控转向控制方法及系统
Chen et al. An improved IOHMM-based stochastic driver lane-changing model
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Chen et al. Online learning-informed feedforward-feedback controller synthesis for path tracking of autonomous vehicles
CN115343950A (zh) 一种适应复杂路面的车辆路径跟踪控制方法及控制系统
CN114779641A (zh) 基于新航向误差定义的环境自适应mpc路径追踪控制方法
Fehér et al. Proving ground test of a ddpg-based vehicle trajectory planner
Ting An output-feedback fuzzy approach to guaranteed cost control of vehicle lateral motion
Wang et al. Learning and generalizing motion primitives from driving data for path-tracking applications
Swief et al. Approximate Neural Network Model for Adaptive Model Predictive Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant