CN110615003B - 基于策略梯度在线学习算法的巡航控制系统及设计方法 - Google Patents

基于策略梯度在线学习算法的巡航控制系统及设计方法 Download PDF

Info

Publication number
CN110615003B
CN110615003B CN201910952171.7A CN201910952171A CN110615003B CN 110615003 B CN110615003 B CN 110615003B CN 201910952171 A CN201910952171 A CN 201910952171A CN 110615003 B CN110615003 B CN 110615003B
Authority
CN
China
Prior art keywords
learning
vehicle
state
strategy
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910952171.7A
Other languages
English (en)
Other versions
CN110615003A (zh
Inventor
高炳钊
张羽翔
郭露露
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910952171.7A priority Critical patent/CN110615003B/zh
Publication of CN110615003A publication Critical patent/CN110615003A/zh
Application granted granted Critical
Publication of CN110615003B publication Critical patent/CN110615003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/002Integrating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0021Differentiating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于汽车先进智能辅助驾驶系统设计及汽车安全技术领域,具体的说是一种基于策略梯度在线学习方法设计的巡航控制系统及方法。本发明将基于策略梯度的强化学习方法,针对车辆系统控制问题的需求,设计了一种基于策略梯度在线学习方法设计的自适应巡航控制系统。该系统适用于L2级别自动驾驶车辆,目标是通过在线学习有效提高系统对不同环境的适应能力,在不同环境下得到一致的控制性能。本发明进一步地对学习框架进行改进,以提高学习算法的效率及稳定性,使得在实际问题中,车辆可以快速地适应变化的环境。

Description

基于策略梯度在线学习算法的巡航控制系统及设计方法
技术领域
本发明属于汽车先进智能辅助驾驶系统设计及汽车安全技术领域,具体的说是一种基于 策略梯度在线学习算法的巡航控制系统及设计方法。
背景技术
随着智能驾驶辅助技术的不断发展,越来越多的先进控制方法被应用于车辆智能辅助 驾驶系统(ADAS)的系统设计中,其中在纵向智能辅助驾驶系统-自适应巡航控制系统的设 计开发中,PID、模糊控制、线性二次型优化控制,模型预测控制等先进控制方法先后被应 用,但随着系统功能设计进一步完善,在系统设计中更多的设计要求被提出以获得更好的 系统性能。车辆驾驶过程中,道路环境会不断发生变化。如不同路段的道路坡度不同,不 同路面的道路附着系数不同。不同的驾驶员,期望的驾驶风格亦会有所不同。而这些不同 的环境变化,在系统设计阶段很难被完整的设计进入系统中。因此,对于自适应巡航系统 进一步地提出了自学习的系统要求。近年来,机器学习方法在世界范围内得到了广泛关注,其中强化学习方法,具有序列控制特性,且可基于环境反馈在线进行学习调整,可通 过设计很好的应用于车辆控制中,满足自适应巡航系统对于多变驾驶环境的适应性学习。 在强化学习算法类中,多为基于离散状态及动作空间的方法,基于策略梯度的方法因可使 用神经网络等非线性函数逼近器在连续的状态及动作空间中进行学习,更适用于车辆系统的控制问题。
发明内容
本发明将基于策略梯度的强化学习方法,针对车辆系统控制问题的需求,设计了一种基 于策略梯度在线学习方法设计的巡航控制系统及方法。该系统适用于L2级别自动驾驶车辆, 目标是通过在线学习有效提高系统对不同环境的适应能力,在不同环境下得到一致的控制性 能,解决了现有技术中存在的上述问题。
本发明技术方案结合附图说明如下:
一种基于策略梯度在线学习算法的巡航控制系统,该系统包括智能感知信号处理模块A、 模式切换模块B、学习模块C和车辆执行控制模块D;
所述智能感知信号处理模块A,用于获得当前车辆和前方车辆行驶状态信息并进行信号 处理;
所述模式切换模块B,用于对学习系统中不同模式进行切换,基于规则方法设计模式切 换策略;
所述学习模块C,用于学习跟车策略并根据环境进行在线更新;
所述车辆执行控制模块D,用于对实际控制量进行跟踪控制,采用双层前馈加反馈PID 控制器实现;
所述智能感知信号处理模块A与模式切换模块B、学习跟车模块C以及执行控制模块D 相连;所述模式切换模块B与学习跟车模块C相连;所述学习跟车模块C与执行控制模块D 相连。
一种基于策略梯度在线学习算法的巡航控制系统的设计方法,该方法包括以下步骤:
步骤一、通过智能感知信号处理模块A获得车辆控制算法所需的状态信息,包括:借助 车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车 辆和前方车辆行驶状态信息;并且根据前车车速通过计算得到加速状态;
步骤二、通过模式切换模块B切换学习系统中的不同模式,基于规则方法设计模式切换 策略,用于切换上层控制器中的不同控制模式,其中这些控制模式有:启停模式,非跟车模 式,跟车学习模式,测试模式,恢复模式;
步骤三、通过学习跟车模块C针对不同的模式使用不同控制方法,构建一个可连续学习 的在线跟车学习模块,其中最重要的是跟车学习模式,在此模式中使用基于强化学习中的策 略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模 式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;以上三种模式均建立 在强化学习系统框架下;启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;
步骤四、通过车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现 对于决策量的跟踪执行,保证跟踪控制精度。
所述步骤一的具体方法如下:
在智能感知信号处理模块A中,通过车身总线可读取车载摄像头与雷达自身算法识别 出的目标物序号,位置,速度信息,以及本车的运动状态;
同时,根据前车车速使用二次均值滤波得到前车的加速状态,作为后续控制算法的状态输入。
所述步骤二的具体方法如下:
模式切换模块B针对的模式有启停模式,非跟车模式,跟车学习模式,测试模式,恢复 模式;在上层控制器中不同模式的切换中,使用基于规则方法设计模式切换策略,其中用于 切换的具体条件如下:
C1:是否满足算法控制车辆车速条件;车速降低至低于15km/h则不满足本算法控制条 件即C1=0,直到车速增加至超过20km/h重新满足本算法控制条件即C1=1;
C2:前方是否有待跟随车辆,若有待跟随车辆C2=0,若无待跟随车辆C2=1;
C3:是否满足自适应巡航条件;即前车车速与当前车辆设定车速关系,若前车车速高于 本车设定车速则不满足跟车条件即C3=0,否则C3=1;
C4:是否满足学习条件;即当前车辆与前车的距离及速度关系是否适合进行跟车学习, 不满足跟车学习即C4=0的条件有:车头时距小于1或前车距离高于最远跟车距离,否则 C4=1;
C5:当前车辆设定状态;分为两种,学习状态即C5=1及测试状态即C5=0。
所述步骤三的具体方法如下:
在学习跟车模块C中,通过不同的模式间的切换策略,构建了一个可连续学习的在线跟 车学习模块,并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法,其 中,启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;而最重要的是跟车学习 模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强 化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法 对本车进行速度控制;以上三种模式均建立在强化学习系统框架下;在连续状态空间及连续 动作空间中基于强化学习中的策略梯度方法及Actor-Critic框架进行在线学习;为了进一步 提高系统安全性,针对此类算法的效率及稳定性低的弱点,近一步的对Actor中的策略搜索 策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值函数初值的敏感及依 赖性,这种方法称为策略引导强化学习方法;具体方法如下:
3.1)策略引导强化学习方法:针对连续状态及动作的强化学习算法的效率及稳定性低的 弱点,在Actor-Critic框架下,对Actor中的策略搜索策略及Critic中的策略评价方法进行改 进,减少算法对于动作策略及值函数初值的敏感及依赖性;基于状态s,Actor神经网络输 出采取动作a,Critic神经网络基于动作执行前后的状态转移(s→s')估计状态值函数,并根 据回报r计算TD-error进行评价用于更新;动作网络的更新公式可表示为:
Figure BDA0002225515690000031
其中,θ为动作网络参数;α为学习率;
Figure BDA0002225515690000032
为对动作策略π的求导;δ为估计误差;sign(δ)和|δ|分别为其符号及大小;δ用时序差分方法进行计算,δTD(0)可表示为
Figure BDA0002225515690000033
其中,r为状态s执行动作a后得到的回报信号;γ∈(0,1)为折扣率;
Figure BDA0002225515690000034
Figure BDA0002225515690000035
分 别为Critic网络在状态转移后s'以及前s估计的状态值函数;ω为动作网络参数;多步(t 步)估计时,δTD(t)可表示为
Figure BDA0002225515690000041
其中,r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号;
Figure BDA0002225515690000042
Figure BDA0002225515690000043
分别为Critic网络在状态转移后s(k+t)以及前s(k)估计的状态值函数;
策略π将动作搜索与动作利用结合,使用正态分布方式搜索动作空间,可表示为:
Figure BDA0002225515690000044
其中,s为当前状态,α为选择的动作,θ为动作网络参数,μ(s;θ)为当前状态下动作网 络的输出值,为动作搜索的均值,σ(s)为动作搜索的标准差;因此,式(1)进一步改写为:
Figure BDA0002225515690000045
其中,θ为动作网络参数,α为学习率,δ为估计误差,sign(δ)和|δ|分别为其符号及大小,μ(s;θ)为当前状态下动作网络的输出值,
Figure BDA0002225515690000046
为对动作网络输出层函数的求导,σ(s) 为动作搜索的标准差,α为选择的动作;
因此,在更新公式中,除了对于网络本身梯度的求导,由于强化学习一般使用较小的学 习率,此过程中,sign(δ)决定了策略μ(s;θ)向a的更新方向,也是更新的重要因素;可以 看到,在此过程中,好的策略搜索对于学习影响巨大;由于动作空间大,且基于实际物理系 统,搜索步长受限制;因此,将评价由对于某一动作的评价变为对于搜索方向的评价,使用 归一化的评价函数,监督评价信号,具体的实施方式为:
对于t时刻,状态s对应的待评价状态分量的实际值与期望值分别为x,x*,及t+1时刻 的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*;因此,归一化后的新项 y,y*,y',y'*可以表示为
Figure BDA0002225515690000047
对于跟踪问题而言,归一化后问题被统一为y'达到零点;归一化后的评价信号d可表示为:
Figure BDA0002225515690000051
其中,m为较大的常数值,这里取m=100;
Figure BDA0002225515690000052
y分别为归一化的上下边界,分别取值为max(y′*,1),min(y′*,1);使用评价信号d可不基于模型对搜索方向进行评价;在此评价信号 的基础上,在连续学习过程中,上一时刻动作的搜索方向及评价信号被用于指导下一时刻的 动作搜索,即在每一个批训练集内,每个时刻的搜索方向,在没有好的指导方向时,采用随 机的搜索方向;当有差的搜索方向时,采用与其相反的搜索方向;当有好的搜索方向时,采 用与其相同的搜索方向;同时在此批训练集内,定义每个搜索方向的基准dbase,记录与其 搜索方向相反的待评价状态变化值;假定在批训练集内,学习环境变化不变当前策略差时, 两个搜索方向均无法得到正的评价信号d;此时,将当前搜索方向的基准dbase,即与当前搜 索方向相反的待评价状态变化值,加入当前的状态变化;比较多步估计信号δTD(t)与评价信 号d,若二者符号相同,则使用式(3)作为误差信号估计,否则使用评价信号进行更新; 此种情况下,动作网络以及值函数网络的更新信号ea,ec可表示为:
Figure BDA0002225515690000053
具体计算过程如下:
步骤(1):参数初始化包括Actor,Critic网络权值及学习率,批训练集样本数n,最大 步数N;
步骤(2):初始化环境;
步骤(3):基于当前状态及上一时刻评价信号选择动作,得到回报,进行评价,更新基 准,执行状态转移;
步骤(4):如果样本集中个数未达到n中且状态未达终态或到达最大步数,重复步骤(3), 否则执行步骤(5);
步骤(5):在批量样本中,由后向前循环计算状态st值函数的计算值Rt,迭代公式为Rt=rt+γRt+1,其中t+1=T时,
Figure BDA0002225515690000061
并将多步估计信号
Figure BDA0002225515690000062
与评价信号d的符号对比;如果,sign(d)=sign(δTD(t)),使用δTD(t)更新;否则,使用式(8)更新;其中rt表示状态st执行at得到的回报,γ∈(0,1)为折扣率,
Figure BDA0002225515690000063
为Critic网络在状态st,st+1估计的状态值函数;
步骤(6):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5),直到策略收敛;
3.2)学习跟车模块在线学习系统建立:将以上的策略引导强化学习方法应用于在线跟车 策略学习系统,将驾驶过程建模为马尔科夫决策过程;首先是状态设计,跟车模式下,状态 为:
Figure BDA0002225515690000064
其中,vh为本车车速;Δv为相对车速;Δd为相对距离;IL为前车驾驶意图;TH=Δx/vh为车头时距;ΔTH=THtar-TH为期望时距与当前时距之差;特别的,在非跟车状态下,TH=THtar+c(vset-vh);c=0.1为一系统设定常数;动作量为车轮处力矩,回报为:
Figure BDA0002225515690000065
其中,vref为期望速度;vh为本车车速;Δx为相对距离;Δxcra碰撞发生时的距离;TH=Δx/vh为车头时距;THmax为最大跟车时距;同时将问题设定为车速跟踪问题,当前时刻的期望速度vref由均上一时刻的状态量决定,可表示为:
Figure BDA0002225515690000066
其中,Δx为上一时刻相对距离;d0为安全距离;ΔT=Δt*n,Δt为系统的控制周期;n=10 为一常数;sl=(vl'+vl)/2*ΔT;sl为前方车辆在系统的控制周期内行驶的距离;vl',vl为前 方车辆在当前及上一时刻的速度;vh为上一时刻本车车速;THtar为当前时刻期望跟车时距; h∈(0,1)为一系统固定参数;
在算法中,归一化后的评价信号d可表示为
Figure BDA0002225515690000071
其中,m为较大的常数值,取m=100;归一化后的k时刻的本车车速yvh(k)和参考车速 yref(k),评价信号d的上下界点
Figure BDA0002225515690000072
y vh(k)可分别表示为:
Figure BDA0002225515690000073
Figure BDA0002225515690000074
Figure BDA0002225515690000075
Figure BDA0002225515690000076
每个搜索方向的基准dbase可由下式计算得到:
dbase=vh(k)-vh(k-1), (17)
其中,vh(k)和vh(k-1)分别为两相邻时刻k,k-1的本车车速值,vref(k)和vref(k-1)分别 为两相邻时刻k,k-1的参考车速值;同时使用神经网络表示策略网络和状态值函数网络,所 涉及的神经网络激活函数在输入层和输出层均选取双曲正切函数,更新过程采用神经网络训 练时的梯度下降法。
所述步骤四的具体方法如下:
车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的 跟踪执行,保证控制精度;由动作量Tw车轮处期望力矩根据逆向动力学模型计算发动机力矩 Te或制动轮缸压力Pwc作为前馈量,同时使用PID进行反馈控制;内层对发动机力矩Te,外 层对车轮处力矩Tw进行跟踪控制;
车辆的纵向动力学模型可以表示为;
Figure BDA0002225515690000077
其中,M为车辆质量;a为纵向加速度,Te为发动机力矩;it为动力传动系统总传动比; ηt为动力传动系统总效率;Tb为制动总力矩;Fr,为行驶阻力,包含滚动阻力,空气阻力,加速阻力之和;R为车轮半径;进一步地,逆向纵向动力学模型可表示为:
Figure BDA0002225515690000078
其中,Tw为车轮处力矩;Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动 系统总效率;Tb为制动总力矩;Pwc为前后轮制动压力;KEF,KER分别为前后轮等效制动效能因素;nf=nr=2为前后轮个数。
本发明的有益效果为:
1.本发明使用基于规则方法的模式切换,建立可连续学习的在线学习系统;
2.本发明提出策略引导强化学习方法,针对连续状态空间及连续动作空间中的策略梯度 方法的效率及稳定性低的弱点,对Actor中的策略搜索策略及Critic中的策略评价方法进行 改进,减少算法对于动作策略及值函数初值的敏感及依赖性。
3.本发明将策略引导强化学习方法与在线学习系统结合,应用无人驾驶车辆的纵向速 度控制问题中,验证了此种学习方法的高效率及稳定性,及其在驾驶环境变化环境中,如坡 度变化,的控制方法有效性。
附图说明
图1为模式切换规则流程图;
图2为Actor-Critic框架结构图;
图3为车辆执行控制框图;
图4为本发明的系统结构框图;
图5为本发明的系统的总体流程示意图;
图6a为道路坡度常值变化曲线图;
图6b为道路坡度如图6a常值变化时,学习系统学习与测试时,前车车速与本车车速对比图;
图6c为道路坡度如图6a常值变化时,学习系统学习与测试时,期望时距与实际时距对比图;
图7a为道路坡度正弦变化曲线图;
图7b为道路坡度如图7a正弦变化时,学习系统学习与测试时,前车车速与本车车速对比图;
图7c为道路坡度如图7a正弦变化时,学习系统学习与测试时,期望时距与实际时距对比图。
具体实施方式
为了使得具备自适应巡航系统的车辆,在道路环境多变的驾驶过程中,如不同路段的道 路坡度不同,或道路附着不同,同样具备较好的适应性。由于变化的环境在系统设计阶段未 知,难以建立模型,本发明采用基于策略梯度强化学习方法,针对车辆系统控制问题的需求 及要求设计了一种可在线学习的自适应巡航控制系统,以有效提高系统对不同环境的适应能 力,在不同环境下得到一致的控制性能。在本问题的框架下,由于状态及动作空间连续,使 用无模型的学习方法,存在样本效率低、学习过程稳定性差的问题。为了更有效的进行学习, 本发明进一步地对学习框架进行改进,以提高学习算法的效率及稳定性,使得在实际问题中, 车辆可以快速地适应变化的环境。
一种基于策略梯度在线学习方法设计的巡航控制系统包含多个子模块,其结构框图如图 4所示,包括智能感知信号处理模块A、模式切换模块B、学习模块C和车辆执行控制模块D;
其中,所述智能感知信号处理模块A,用于获得当前车辆和前方车辆行驶状态信息并进 行信号处理;借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆, 并得到车辆控制算法所需的当前车辆和前方车辆行驶状态信息,并且根据前车车速通过计算 得到加速状态。
所述模式切换模块B,用于对学习系统中不同模式进行切换,基于规则方法设计模式切 换策略;不同模式包括启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式。
所述学习模块C,用于学习跟车策略并根据环境进行在线更新;不同的模式具有不同的 功能并使用不同控制方法,其中跟车学习模式,非跟车模式,测试模式建立在强化学习系统 框架下,作用分别为有前车情况下在线学习,无前车情况下速度控制,测试学习效果。特别 地,在跟车学习模式下,使用基于强化学习中的策略梯度方法在线学习跟车行为。启停模式 与恢复模式使用比例-积分-微分PID控制器进行控制,以保证系统功能的完备性并可执行连 续学习。
所述执行控制模块D用于对实际控制量进行跟踪控制,采用双层前馈加反馈PID控制器 实现;依据车辆纵向动力学模型反推逆向模型,计算实际可执行于车辆子控制系统的控制量, 并采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证跟踪控 制精度。
在此基础上,图5给出了本发明的整体技术方案流程图,具体实施过程为:
如图5所示,智能感知及信号处理模块A,借助车载智能感知模块中车载摄像头、雷达 环境感知元件确认前方待跟随车辆,并得到前方车辆的车速及与本车的相对距离,以及当前 车辆的车速,发动机力矩,档位信息。并且根据前车车速通过二次滤波得到前车的加速状态, 得到离散值-1,0,1分别代表减速、匀速、加速。模式切换模块B中计算模式切换策略中条 件C1-C12的控制信号,通过设计的规则算法计算学习系统的当前模式,如启停模式,非跟 车模式,跟车学习模式,测试模式,恢复模式。由于学习跟车模块C中不同的模式具有不同 的功能并使用不同控制方法,因此其包含两个子模块分别对应强化学习控制方法(模块C(a)) 及PID控制方法(模块C(b))。此模块工作时,根据模式切换模块B输出的模式切换至对 应模块下的控制方法。若使用强化学习控制方法,模块C(a)计算算法需输入的状态量, 依据神经网络的输出进行控制。若使用PID控制方法,模块C(b)根据反馈误差进行控制。 学习跟车模块C最终输出作用于车辆执行模块的控制量,即车轮处期望力矩,由于此控制量 不能直接作用于车辆执行器,因此车辆执行控制模块D依据车辆纵向动力学模型反推逆向模 型,计算实际可执行于车辆子控制系统的控制量,并采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证跟踪控制精度。
一种基于策略梯度在线学习方法设计的巡航控制方法具体工作过程如下:
步骤一、在智能感知信号处理模块A中,通过车身总线可读取车载摄像头与雷达自身 算法识别出的目标物序号,位置,速度信息,以及本车的运动状态,如车速,发动机力矩信 息。同时,根据前车车速使用二次均值滤波得到前车的加速状态,作为后续控制算法的状态 输入。
步骤二、模式切换模块B包含的模式有启停模式,非跟车模式,跟车学习模式,测试模 式,恢复模式,属于上层控制器中不同模式的切换。在此模块中使用基于规则方法设计模式 切换策略,其中可用于切换的具体条件如下:如图1所示,
C1:是否满足算法控制车辆车速条件。车速降低至低于15km/h则不满足本算法控制条 件(C1=0),直到车速增加至超过20km/h重新满足本算法控制条件(C1=1);
C2:前方是否有待跟随车辆,若有待跟随车辆C2=0,若无待跟随车辆C2=1;
C3:是否满足自适应巡航条件。既前车车速与当前车辆设定车速关系,若前车车速高于 本车设定车速则不满足跟车条件(C3=0),否则C3=1;
C4:是否满足学习条件。即当前车辆与前车的距离及速度关系是否适合进行跟车学习, 不满足跟车学习(C4=0)的条件有:车头时距太小,或前车距离高于最远跟车距离,否则 C4=1;
C5:当前车辆设定状态。分为两种,学习状态(C5=1)及测试状态(C5=0);
切换简图如图1所示,决策信号C1-C5具体值可选取为0和1,即0为不满足该条件,1为满足该条件。切换规则可描述为:当本车车速低于15km/h,车辆进入启停模式,当车辆速度重新高于20km/h,车辆进入自适应巡航系统可开启状态;当前方无可跟随车辆,或前方车辆车速高于本车驾驶员设定车速时,车辆进入非跟车模式;否则本车进入可跟车学习状 态,当前方目标车辆与本车的相对距离不满足学习条件,则直接进入恢复模式;否则本车处 于可在线学习状态;若本车设定学习状态,则强化学习模块开始学习;否则,进入测试模块 开始测试当前跟车驾驶策略。
步骤三、在学习跟车模块C中,通过不同的模式间的切换策略,构建了一个可连续学习 的在线跟车学习模块,并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制 方法,其中启停模式与恢复模式使用比例-积分-微分PID控制器进行控制。而最重要的是跟 车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为。测试模式 应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学 习方法对本车进行速度控制;以上三种模式均建立在强化学习系统框架下。在连续状态空间 及连续动作空间中基于强化学习中的策略梯度方法及其中常用的Actor-Critic框架进行在线 学习;为了进一步提高系统安全性,针对此类算法的效率及稳定性低的弱点,近一步的对 Actor中的策略搜索策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值 函数初值的敏感及依赖性,这种方法称为策略引导强化学习方法;具体方法如下:如图2所 示:
3.1)策略引导强化学习方法:针对连续状态及动作的强化学习算法的效率及稳定性低的 弱点,在Actor-Critic框架下,对Actor中的策略搜索策略及Critic中的策略评价方法进行改 进,减少算法对于动作策略及值函数初值的敏感及依赖性;基于状态s,Actor神经网络输 出采取动作a,Critic神经网络基于动作执行前后的状态转移(s→s')估计状态值函数,并根 据回报计算TD-error进行评价用于更新;动作网络的更新公式可表示为:
Figure BDA0002225515690000111
其中,θ为动作网络参数;α为学习率;
Figure BDA0002225515690000112
为对动作策略π的求导;δ为估计误差;sign(δ)和|δ|分别为其符号及大小;δ用时序差分方法进行计算,δTD(0)可表示为
Figure BDA0002225515690000113
其中,r为状态s执行动作a后得到的回报信号;γ∈(0,1)为折扣率;
Figure BDA0002225515690000114
Figure BDA0002225515690000115
分 别为Critic网络在状态转移后s'以及前s估计的状态值函数;ω为动作网络参数;多步估计 时,δTD(t)可表示为
Figure BDA0002225515690000116
其中,r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号;
Figure BDA0002225515690000117
Figure BDA0002225515690000118
分别为Critic网络在状态转移后s(k+t)以及前s(k)估计的状态值函数;
策略π将动作搜索与动作利用结合,使用正态分布方式搜索动作空间,可表示为:
Figure BDA0002225515690000119
其中s为当前状态,a为选择的动作,θ为动作网络参数,μ(s;θ)为当前状态下动作网络的输 出值,为动作搜索的均值,σ(s)为动作搜索的标准差;因此,式(1)进一步改写为:
Figure BDA00022255156900001110
其中,θ为动作网络参数,α为学习率,δ为估计误差,sign(δ)和|δ|分别为其符号及大小, μ(s;θ)为当前状态下动作网络的输出值,
Figure BDA0002225515690000124
为对动作网络输出层函数的求导,σ(s)为动 作搜索的标准差,a为选择的动作;
因此,在更新公式中,除了对于网络本身梯度的求导,由于强化学习一般使用较小的学 习率,此过程中,sign(δ)决定了策略μ(s;θ)向a的更新方向,也是更新的重要因素;可以 看到,在此过程中,好的策略搜索对于学习影响巨大;由于动作空间大,且基于实际物理系 统,搜索步长受限制;因此,将评价由对于某一动作的评价变为对于搜索方向的评价,使用 归一化的评价函数,监督评价信号,具体的实施方式为:
对于t时刻,状态s对应的待评价状态分量的实际值与期望值分别为x,x*,及t+1时刻 的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*;因此,归一化后的新项 y,y*,y',y'*可以表示为
Figure BDA0002225515690000121
对于跟踪问题而言,归一化后问题被统一为y'达到零点;归一化后的评价信号d可表示为:
Figure BDA0002225515690000122
其中,m为较大的常数值,这里取m=100;
Figure BDA0002225515690000123
y分别为归一化的上下边界,分别取值为max(y′*,1),min(y′*,1);使用评价信号d可不基于模型对搜索方向进行评价;在此评价信号 的基础上,在连续学习过程中,上一时刻动作的搜索方向及评价信号被用于指导下一时刻的 动作搜索,即在每一个批训练集内,每个时刻的搜索方向,在没有好的指导方向时,采用随 机的搜索方向;当有差的搜索方向时,采用与其相反的搜索方向;当有好的搜索方向时,采 用与其相同的搜索方向;同时在此批训练集内,定义每个搜索方向的基准dbase,记录与其 搜索方向相反的待评价状态变化值;假定在批训练集内,学习环境变化不变,当前策略差时, 两个搜索方向均无法得到正的评价信号d;此时,将当前搜索方向的基准dbase,即与当前搜 索方向相反的待评价状态变化值,加入当前的状态变化;比较多步估计信号δTD(t)与评价信 号d,若二者符号相同,则使用式(3)作为误差信号估计,否则使用评价信号进行更新; 此种情况下,动作网络以及值函数网络的更新信号ea,ec可表示为:
Figure BDA0002225515690000131
具体计算过程如下:
步骤(1):参数初始化包括Actor,Critic网络权值及学习率,批训练集样本数n,最大 步数N;
步骤(2):初始化环境;
步骤(3):基于当前状态及上一时刻评价信号选择动作,得到回报,进行评价,更新基 准,执行状态转移;
步骤(4):如果样本集中个数未达到n中且状态未达终态或到达最大步数,重复步骤(3), 否则执行步骤(5);
步骤(5):在批量样本中,由后向前循环计算状态st值函数的计算值Rt,迭代公式为Rt=rt+γRt+1,其中t+1=T时,
Figure BDA0002225515690000132
并将多步估计信号
Figure BDA0002225515690000133
与评价信号d的符号对比;如果,sign(d)=sign(δTD(t)),使用δTD(t)更 新;否则,使用式(8)更新;其中rt表示状态st执行at得到的回报,γ∈(0,1)为折扣率,
Figure BDA0002225515690000134
为Critic网络在状态st,st+1估计的状态值函数;
步骤(6):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5),直到策略收敛;
3.2)学习跟车模块在线学习系统建立:将以上的策略引导强化学习方法应用于在线跟车 策略学习系统,将驾驶过程建模为马尔科夫决策过程;首先是状态设计,跟车模式下,状态 为:
Figure BDA0002225515690000141
其中,vh为本车车速;Δv为相对车速;Δd为相对距离;IL为前车驾驶意图;TH=Δx/vh为车头时距;ΔTH=THtar-TH为期望时距与当前时距之差;特别的,在非跟车状态下,TH=THtar+c(vset-vh);c=0.1为一系统设定常数;动作量为车轮处力矩,回报为:
Figure BDA0002225515690000142
其中,vref为期望速度;vh为本车车速;Δx为相对距离;Δxcra碰撞发生时的距离;TH=Δx/vh为车头时距;THmax为最大跟车时距;同时将问题设定为车速跟踪问题,当前时刻的期望速度vref由均上一时刻的状态量决定,可表示为:
Figure BDA0002225515690000143
其中,Δx为上一时刻相对距离;d0为安全距离;ΔT=Δt*n,Δt为系统的控制周期;n=10 为一常数;sl=(vl'+vl)/2*ΔT;sl为前方车辆在系统的控制周期内行驶的距离;vl',vl为前 方车辆在当前及上一时刻的速度;vh为上一时刻本车车速;THtar为当前时刻期望跟车时距; h∈(0,1)为一系统固定参数;
在算法中,归一化后的评价信号d可表示为
Figure BDA0002225515690000144
其中,其中,m与公式(7)中含义一致,为较大的常数值,取m=100;归一化后的k 时刻的本车车速yvh(k)和参考车速yref(k),评价信号d的上下界点
Figure BDA0002225515690000145
y vh(k)可分别表示为:
Figure BDA0002225515690000146
Figure BDA0002225515690000147
Figure BDA0002225515690000148
y vh(k)=min(1,yref(k)) (16)
每个搜索方向的基准dbase可由下式计算得到:
dbase=vh(k)-vh(k-1), (17)
其中,vh(k)和vh(k-1)分别为两相邻时刻k,k-1的本车车速值,vref(k)和vref(k-1)分别为两 相邻时刻k,k-1的参考车速值。同时使用神经网络表示策略网络和状态值函数网络,所涉及 的神经网络激活函数在输入层和输出层均选取双曲正切函数,更新过程采用神经网络训练时 的梯度下降法。
步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器 实现对于决策量的跟踪执行,保证控制精度。
参阅图3,车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对 于决策量的跟踪执行,保证控制精度。控制框图如图所示。由动作量Tw车轮处期望力矩根据 逆向动力学模型计算发动机力矩Te或制动轮缸压力Pwc作为前馈量,同时使用PID进行反馈 控制。内层对发动机力矩Te,外层对车轮处力矩Tw进行跟踪控制。
车辆的纵向动力学模型可以表示为;
Figure BDA0002225515690000151
其中,M为车辆质量;a为纵向加速度,Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为制动总力矩;R为车轮半径;Fr,为行驶阻力,包含滚 动阻力,空气阻力,加速阻力之和;进一步地,逆向纵向动力学模型可表示为:
Figure BDA0002225515690000152
其中,Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为 制动总力矩;Pwc为前后轮制动压力;KEF,KER分别为前后轮等效制动效能因素;nf=nr=2为前后轮个数。
最后,我们在无道路坡度的环境下对自适应巡航控制系统的控制策略进行训练,训练完 成后,在道路坡度为常数值正负5°以及道路坡度以幅值5°正弦变化的环境下,使用学习 模式及测试模式分别进行试验。图6a-6c和7a-7c分别为两种情况下,使用学习模式及测试 模式的跟车效果对比图,可以看到具有在线学习能力的自适应巡航控制系统对变化的环境具 有更好的适应能力。

Claims (5)

1.一种基于策略梯度在线学习算法的巡航控制系统的设计方法,巡航控制系统包括智能感知信号处理模块(A)、模式切换模块(B)、学习模块(C)和车辆执行控制模块(D);所述智能感知信号处理模块(A),用于获得当前车辆和前方车辆行驶状态信息并进行信号处理;所述模式切换模块(B),用于对学习系统中不同模式进行切换,基于规则方法设计模式切换策略;所述学习模块(C),用于学习跟车策略并根据环境进行在线更新;所述车辆执行控制模块(D),用于对实际控制量进行跟踪控制,采用双层前馈加反馈PID控制器实现;所述智能感知信号处理模块(A)与模式切换模块(B)、学习跟车模块(C)以及执行控制模块D相连;所述模式切换模块(B)与学习跟车模块(C)相连;所述学习跟车模块(C)与执行控制模块(D)相连;其特征在于,该方法包括以下步骤:
步骤一、通过智能感知信号处理模块(A)获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速通过计算得到加速状态;
步骤二、通过模式切换模块(B)切换学习系统中的不同模式,基于规则方法设计模式切换策略,用于切换上层控制器中的不同控制模式,其中这些控制模式有:启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式;
步骤三、通过学习跟车模块(C)针对不同的模式使用不同控制方法,构建一个可连续学习的在线跟车学习模块,其中最重要的是跟车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;以上三种模式均建立在强化学习系统框架下;启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;
步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证跟踪控制精度。
2.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤一的具体方法如下:
在智能感知信号处理模块(A)中,通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号,位置,速度信息,以及本车的运动状态;
同时,根据前车车速使用二次均值滤波得到前车的加速状态,作为后续控制算法的状态输入。
3.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤二的具体方法如下:
模式切换模块(B)针对的模式有启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式;在上层控制器中不同模式的切换中,使用基于规则方法设计模式切换策略,其中用于切换的具体条件如下:
C1:是否满足算法控制车辆车速条件;车速降低至低于15km/h则不满足本算法控制条件即C1=0,直到车速增加至超过20km/h重新满足本算法控制条件即C1=1;
C2:前方是否有待跟随车辆,若有待跟随车辆C2=0,若无待跟随车辆C2=1;
C3:是否满足自适应巡航条件;即前车车速与当前车辆设定车速关系,若前车车速高于本车设定车速则不满足跟车条件即C3=0,否则C3=1;
C4:是否满足学习条件;即当前车辆与前车的距离及速度关系是否适合进行跟车学习,不满足跟车学习即C4=0的条件有:车头时距小于1或前车距离高于最远跟车距离,否则C4=1;
C5:当前车辆设定状态;分为两种,学习状态即C5=1及测试状态即C5=0。
4.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤三的具体方法如下:
在学习跟车模块(C)中,通过不同的模式间的切换策略,构建了一个可连续学习的在线跟车学习模块,并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法,其中,启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;而最重要的是跟车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;跟车学习模式、测试模式和非跟车模式均建立在强化学习系统框架下;在连续状态空间及连续动作空间中基于强化学习中的策略梯度方法及Actor-Critic框架进行在线学习;为了进一步提高系统安全性,针对此类算法的效率及稳定性低的弱点,近一步的对Actor中的策略搜索策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值函数初值的敏感及依赖性,这种方法称为策略引导强化学习方法;具体方法如下:
3.1)策略引导强化学习方法:针对连续状态及动作的强化学习算法的效率及稳定性低的弱点,在Actor-Critic框架下,对Actor中的策略搜索策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值函数初值的敏感及依赖性;基于状态s,Actor神经网络输出采取动作a,Critic神经网络基于动作执行前后的状态转移(s→s')估计状态值函数,并根据回报r计算TD-error进行评价用于更新;动作网络的更新公式可表示为:
Figure FDA0002521524960000021
其中,θ为动作网络参数;α为学习率;
Figure FDA0002521524960000022
为对动作策略π的求导;δ为估计误差;sign(δ)和|δ|分别为其符号及大小;δ用时序差分方法进行计算,δTD(0)可表示为
Figure FDA0002521524960000031
其中,r为状态s执行动作a后得到的回报信号;γ∈(0,1)为折扣率;
Figure FDA0002521524960000032
Figure FDA0002521524960000033
分别为Critic网络在状态转移后s'以及前s估计的状态值函数;ω为动作网络参数;多步(t步)估计时,δTD(t)可表示为
Figure FDA0002521524960000034
其中,r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号;
Figure FDA0002521524960000035
Figure FDA0002521524960000036
分别为Critic网络在状态转移后s(k+t)以及前s(k)估计的状态值函数;
策略π将动作搜索与动作利用结合,使用正态分布方式搜索动作空间,可表示为:
Figure FDA0002521524960000037
其中,s为当前状态,a为选择的动作,θ为动作网络参数,μ(s;θ)为当前状态下动作网络的输出值,为动作搜索的均值,σ(s)为动作搜索的标准差;因此,式(1)进一步改写为:
Figure FDA0002521524960000038
其中,θ为动作网络参数,α为学习率,δ为估计误差,sign(δ)和|δ|分别为其符号及大小,μ(s;θ)为当前状态下动作网络的输出值,
Figure FDA0002521524960000039
为对动作网络输出层函数的求导,σ(s)为动作搜索的标准差,a为选择的动作;
因此,在更新公式中,除了对于网络本身梯度的求导,由于强化学习一般使用较小的学习率,此过程中,sign(δ)决定了策略μ(s;θ)向a的更新方向,也是更新的重要因素;可以看到,在此过程中,好的策略搜索对于学习影响巨大;由于动作空间大,且基于实际物理系统,搜索步长受限制;因此,将评价由对于某一动作的评价变为对于搜索方向的评价,使用归一化的评价函数,监督评价信号,具体的实施方式为:
对于t时刻,状态s对应的待评价状态分量的实际值与期望值分别为x,x*,及t+1时刻的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*;因此,归一化后的新项y,y*,y',y'*可以表示为
Figure FDA0002521524960000041
对于跟踪问题而言,归一化后问题被统一为y'达到零点;归一化后的评价信号d可表示为:
Figure FDA0002521524960000042
其中,m为较大的常数值,这里取m=100;
Figure FDA0002521524960000043
y分别为归一化的上下边界,分别取值为max(y′*,1),min(y′*,1);使用评价信号d可不基于模型对搜索方向进行评价;在此评价信号的基础上,在连续学习过程中,上一时刻动作的搜索方向及评价信号被用于指导下一时刻的动作搜索,即在每一个批训练集内,每个时刻的搜索方向,在没有好的指导方向时,采用随机的搜索方向;当有差的搜索方向时,采用与其相反的搜索方向;当有好的搜索方向时,采用与其相同的搜索方向;同时在此批训练集内,定义每个搜索方向的基准dbase,记录与其搜索方向相反的待评价状态变化值;假定在批训练集内,学习环境变化不变当前策略差时,两个搜索方向均无法得到正的评价信号d;此时,将当前搜索方向的基准dbase,即与当前搜索方向相反的待评价状态变化值,加入当前的状态变化;比较多步估计信号δTD(t)与评价信号d,若二者符号相同,则使用式(3)作为误差信号估计,否则使用评价信号进行更新;此种情况下,动作网络以及值函数网络的更新信号ea,ec可表示为:
Figure FDA0002521524960000044
具体计算过程如下:
步骤(1):参数初始化包括Actor,Critic网络权值及学习率,批训练集样本数n,最大步数N;
步骤(2):初始化环境;
步骤(3):基于当前状态及上一时刻评价信号选择动作,得到回报,进行评价,更新基准,执行状态转移;
步骤(4):如果样本集中个数未达到n中且状态未达终态或到达最大步数,重复步骤(3),否则执行步骤(5);
步骤(5):在批量样本中,由后向前循环计算状态st值函数的计算值Rt,迭代公式为Rt=rt+γRt+1,其中t+1=T时,
Figure FDA0002521524960000051
并将多步估计信号
Figure FDA0002521524960000056
与评价信号d的符号对比;如果,sign(d)=sign(δTD(t)),使用δTD(t)更新;否则,使用式(8)更新;其中rt表示状态st执行at得到的回报,γ∈(0,1)为折扣率,
Figure FDA0002521524960000052
为Critic网络在状态st,st+1估计的状态值函数;
步骤(6):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5),直到策略收敛;
3.2)学习跟车模块在线学习系统建立:将以上的策略引导强化学习方法应用于在线跟车策略学习系统,将驾驶过程建模为马尔科夫决策过程;首先是状态设计,跟车模式下,状态为:
Figure FDA0002521524960000053
其中,vh为本车车速;△v为相对车速;△d为相对距离;IL为前车驾驶意图;TH=△x/vh为车头时距;△TH=THtar-TH为期望时距与当前时距之差;特别的,在非跟车状态下,TH=THtar+c(vset-vh);c=0.1为一系统设定常数;动作量为车轮处力矩,回报为:
Figure FDA0002521524960000054
其中,vref为期望速度;vh为本车车速;△x为相对距离;△xcra碰撞发生时的距离;TH=△x/vh为车头时距;THmax为最大跟车时距;同时将问题设定为车速跟踪问题,当前时刻的期望速度vref由均上一时刻的状态量决定,可表示为:
Figure FDA0002521524960000055
其中,△x为上一时刻相对距离;d0为安全距离;△T=△t*n,△t为系统的控制周期;n=10为一常数;sl=(vl'+vl)/2*△T;sl为前方车辆在系统的控制周期内行驶的距离;vl',vl为前方车辆在当前及上一时刻的速度;vh为上一时刻本车车速;THtar为当前时刻期望跟车时距;h∈(0,1)为一系统固定参数;
在算法中,归一化后的评价信号d可表示为
Figure FDA0002521524960000061
其中,m为较大的常数值,取m=100;归一化后的k时刻的本车车速yvh(k)和参考车速yref(k),评价信号d的上下界点
Figure FDA0002521524960000062
y vh(k)可分别表示为:
Figure FDA0002521524960000063
Figure FDA0002521524960000064
Figure FDA0002521524960000065
y vh(k)=min(1,yref(k)) (16)
每个搜索方向的基准dbase可由下式计算得到:
dbase=vh(k)-vh(k-1), (17)
其中,vh(k)和vh(k-1)分别为两相邻时刻k,k-1的本车车速值,vref(k)和vref(k-1)分别为两相邻时刻k,k-1的参考车速值;同时使用神经网络表示策略网络和状态值函数网络,所涉及的神经网络激活函数在输入层和输出层均选取双曲正切函数,更新过程采用神经网络训练时的梯度下降法。
5.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤四的具体方法如下:
车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证控制精度;由动作量Tw车轮处期望力矩根据逆向动力学模型计算发动机力矩Te或制动轮缸压力Pwc作为前馈量,同时使用PID进行反馈控制;内层对发动机力矩Te,外层对车轮处力矩Tw进行跟踪控制;
车辆的纵向动力学模型可以表示为;
Figure FDA0002521524960000071
其中,M为车辆质量;a为纵向加速度,Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为制动总力矩;Fr,为行驶阻力,包含滚动阻力,空气阻力,加速阻力之和;R为车轮半径;进一步地,逆向纵向动力学模型可表示为:
Figure FDA0002521524960000072
其中,Tw为车轮处力矩;Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为制动总力矩;Pwc为前后轮制动压力;KEF,KER分别为前后轮等效制动效能因素;nf=nr=2为前后轮个数。
CN201910952171.7A 2019-10-30 2019-10-30 基于策略梯度在线学习算法的巡航控制系统及设计方法 Active CN110615003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952171.7A CN110615003B (zh) 2019-10-30 2019-10-30 基于策略梯度在线学习算法的巡航控制系统及设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952171.7A CN110615003B (zh) 2019-10-30 2019-10-30 基于策略梯度在线学习算法的巡航控制系统及设计方法

Publications (2)

Publication Number Publication Date
CN110615003A CN110615003A (zh) 2019-12-27
CN110615003B true CN110615003B (zh) 2020-09-18

Family

ID=68925261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952171.7A Active CN110615003B (zh) 2019-10-30 2019-10-30 基于策略梯度在线学习算法的巡航控制系统及设计方法

Country Status (1)

Country Link
CN (1) CN110615003B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073076B (zh) * 2017-12-22 2020-08-28 东软集团股份有限公司 车辆控制方法和装置
CN111267851B (zh) * 2020-01-22 2021-07-06 东风小康汽车有限公司重庆分公司 一种跟车时距更新方法、车辆巡航控制方法及装置
CN111679576B (zh) * 2020-05-21 2021-07-16 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN111845741B (zh) * 2020-06-28 2021-08-03 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN113110359B (zh) * 2021-05-17 2022-05-03 清华大学 约束型智能汽车自主决策系统在线训练方法及装置
CN113671962B (zh) * 2021-08-20 2023-11-21 湘潭大学 一种无人驾驶铰接式清扫车的横向控制方法
CN115675098B (zh) * 2022-11-15 2024-04-26 长安大学 基于用户特征差异的智能网联汽车动能回收系统、方法、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107226087B (zh) * 2017-05-26 2019-03-26 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法
CN108099908B (zh) * 2017-12-07 2019-07-05 浙江工业大学 一种车辆自适应巡航优化控制计算方法
CN109733395B (zh) * 2018-12-19 2020-06-09 江苏大学 一种基于可拓优度评价的自动驾驶汽车横向协调控制方法
CN109624986B (zh) * 2019-03-01 2021-01-15 吉林大学 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
CN110155052A (zh) * 2019-05-29 2019-08-23 台州学院 改进的自适应巡航下层控制设计方法

Also Published As

Publication number Publication date
CN110615003A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110615003B (zh) 基于策略梯度在线学习算法的巡航控制系统及设计方法
CN109624986B (zh) 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN111284489B (zh) 智能网联汽车随机预测巡航控制系统
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
Marzbanrad et al. Self-tuning control algorithm design for vehicle adaptive cruise control system through real-time estimation of vehicle parameters and road grade
CN112666833A (zh) 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法
CN114510063B (zh) 一种无人履带车辆及其轨迹跟踪控制方法和系统
Norouzi et al. Integrating machine learning and model predictive control for automotive applications: A review and future directions
CN113511222A (zh) 场景自适应式车辆交互行为决策与预测方法及装置
Yang et al. Longitudinal tracking control of vehicle platooning using DDPG-based PID
EL HAJJAMI et al. Neural network based sliding mode lateral control for autonomous vehicle
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN111830962A (zh) 强化学习代理控制器的解释数据
Shen et al. Energy-efficient reactive and predictive connected cruise control
CN113635900B (zh) 一种预测巡航过程中基于能量管理的换道决策控制方法
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
CN113561976B (zh) 基于反馈优化的车辆节能预测自适应巡航控制方法和装置
CN112477880B (zh) 一种无人驾驶汽车纵向控制方法
Buechel et al. An adaptive nonlinear model predictive controller for longitudinal motion of automated vehicles
CN111965973B (zh) 基于数据驱动建模的dct车辆起步sd-arx-mpc控制方法
Iyer et al. Sliding mode control using power rate exponential reaching law for urban platooning
Xiong et al. Terrain-Adaptive Longitudinal Control for Autonomous Trucks
CN110531620B (zh) 基于高斯过程近似模型的小车上山系统自适应控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant