CN117360544A - 一种基于drl-mpc的自动驾驶车辆横向控制方法 - Google Patents
一种基于drl-mpc的自动驾驶车辆横向控制方法 Download PDFInfo
- Publication number
- CN117360544A CN117360544A CN202311517431.0A CN202311517431A CN117360544A CN 117360544 A CN117360544 A CN 117360544A CN 202311517431 A CN202311517431 A CN 202311517431A CN 117360544 A CN117360544 A CN 117360544A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- control
- model
- prediction model
- automatic driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 2
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0013—Planning or execution of driving tasks specially adapted for occupant comfort
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于DRL‑MPC的自动驾驶车辆横向控制方法,包括获取位置状态信息,前方道路状态和障碍物信息;建立世界坐标系并建立车辆动力学模型;基于深度强化学习算法对预测模型控制中的预测模型进行学习,根据道路信息、车辆状态信息以及系统稳定性生成对应的预测模型输出,用于后续最优控制量计算;并将计算得到最优的行驶轨迹控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。本发明提出的自动驾驶车辆横向控制方法通过及时调整模型预测控制中的预测模型,使得车辆实现精准跟踪轨迹,并能实现精准避撞。
Description
技术领域
本发明涉及自动化驾驶技术领域,特别涉及一种基于DRL-MPC的自动驾驶车辆横向控制方法。
背景技术
随着我国经济的迅速发展,车辆保有量迅速增加,道路交通事故频发。目前处于研究热门的自动驾驶技术,可以降低由司机失误导致的交通事故的发生率,在高度自动化驾驶的范围内,车辆动态跟踪的自动控制是一个重要的课题,其要求是车辆在安全行驶的情况下按尽可能理想地要求行驶。模型预测控制(MPC)由于其广泛的适用性和良好的控制效果,被广泛应用于工业界及自动驾驶控制中。它利用被控系统的内部模型来预测其未来行为,并确定最优控制行为以达到预期结果。该控制器的工作原理是根据系统的当前状态不断更新其预测,并使用优化算法来计算最佳控制动作,同时满足系统的任何约束条件。MPC在控制过程中,其内部的预测模型η[*]对MPC的控制性能有着决定性的作用。预测模型通过预测未来的控制序列来实现模型预测控制,但其极易受到外部干扰因素影响,因此传统的预测模型如ARIMA模型,BP神经网络模型等无法满足实际控制需求,且算法复杂度较高。并且当自动驾驶车辆行驶过程中出现紧急情况时,需要紧急避撞时,由于外部环境的复杂性,干扰因素增加,其控制复杂度比正常行驶情况下要高得多。而强化学习具备与外部环境的交互学习能力,使得基于深度强化学习的MPC预测模型具备更加精确的预测效果,并具备实时反映外部客观环境的能力。
发明内容
具体的,本发明提出一种基于DRL-MPC的自动驾驶车辆横向控制方法,所述基于DRL-MPC的自动驾驶车辆横向控制方法包括以下步骤:
步骤1,获得自动驾驶车辆的环境信息和自动驾驶车辆的位置状态信息;
步骤2,建立世界坐标系,将环境信息及车辆位置转化为坐标信息,并建立车辆转角控制模型;
步骤3,根据车辆转角控制模型获取状态方程,并构建非线性模型预测控制问题获取预测模型;
步骤4,根据前向欧拉法离散状态方程可得到初始预测模型,通过最优求解得到初始最优控制序列,将最优控制序列代入车辆转角控制模型,得到最新的状态量;
步骤5,基于初始最优控制序列、车辆新的行驶轨迹以及车辆跟踪误差构建深度强化学习预测模型预测控制器,通过深度强化学习算法建立预测模型,并进行优化训练得到最佳预测模型,通过最优求解得到最优控制序列;
步骤6,对生成的预测模型进行反馈校正调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量,及下一系列位置信息;
步骤7,接收到行驶轨迹,将转角信号和位置信息通过指令生成器生成对应的执行指令,从而控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。
更近一步地,在步骤2中,还包括以下步骤:
步骤21,将位置状态信息,前方道路状态和障碍物信息转化为坐标信息,包括车辆坐标[X,Y,phi]、障碍物坐标[XO,YO],车辆到障碍物的距离d,并根据避撞要求计算出期望轨迹[Xref,Yref,phiref],其中phi为横摆角,phiref为参考横摆角;
步骤22,建立所述车辆转角控制模型,所述车辆转角控制模型为:
其中,m是整车质量;a、b分别是质心到前、后轴的距离;是质心横摆角;/>是质心横摆角速度;/>是质心横摆角加速度;/>和/>分别是车辆纵向速度和侧向速度;/>和/>分别是纵向加速度和侧向加速度;Iz是车辆绕z轴的转动惯量;δf是前轮的转角;Ccf和Ccr分别是前、后轮的侧偏刚度;Clf和Clr分别是前、后轮的纵向刚度;sf和sr分别是前、后轮的滑移率;X和Y分别是车辆的在惯性坐标系下的横向和纵向位移。
更近一步地,在步骤3中,状态量为转角控制量为u=δf;输出量为η=[x,y,phi]T,状态量ξ的状态方程可以表达为/>A和B为系统的系数矩阵;
构建非线性模型预测控制问题:
umin(t+i)≤u(t+i|t)≤umax(t+i)
Δumin(t+i)≤Δu(t+i|t)≤Δumax(t+i)
η(t+i|t)为当前t时刻的预测模型:
η(t+i|t)=[x(t+i|t),y(t+i|t),phi(t+i|t)]T
其中,Np为预测时域,Nc为控制时域,ηref表示当前t时刻预测时域内的参考轨迹,ρ表示权重系数,ε表示松弛因子,矩阵Q是跟踪偏差的权重矩阵;矩阵R是控制增量幅的权重矩阵,Job,i为危险度目标函数,u为控制量,Δu为控制增量,umin、umax分别为控制量的最大值和最小值,Δumin、Δumax为控制增量的最大值和最小值,i=1:1:Np。
更近一步地,在步骤4中,根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为:
…
其中,和/>为离散后系统的系数矩阵,/>为当前时刻k离散后的控制量,uk为当前时刻k的状态量;
则得到初始预测模型η(t+i|t=1),i=1:1:Np;
通过最优求解得到初始最优控制序列将最优控制序列代入车辆转角控制模型,得到最新的状态量/>
是最新的质心横摆角,/>是最新的质心横摆角速度,/>和/>分别是最新的车辆纵向速度和侧向速度,X1和Y1分别是最新的车辆的在惯性坐标系下的横向和纵向位移。
更近一步地,在步骤5中,还包括以下步骤:
步骤51,深度强化学习预测模型预测控制器定义为深度强化学习的agent,深度强化学习环境的状态包括车辆质心侧偏角β(t)、横摆角phi(t)、前轮转角
状态空间表示为本阶段模型预测控制中的预测模型定义为动作,动作空间表示为a(t)=[x(t+1),y(t+1),phi(t+1);…;x(t+),y(t+Np),phi(t+Np)];
步骤52,并对基于深度强化学习的预测模型进行训练。
更近一步地,在步骤52中,还包括以下步骤:
步骤521,初始化部分车辆行驶信息组成的环境状态s(t)和预测模型组成的动作空间a(t)的维度,定义考虑控制器跟踪效果和稳定性的奖励函数并定义终止条件;
步骤522,初始化策略网络,用当前策略生成估计数据;
步骤523,采集经验数据,通过使用当前策略网络来选择预测模型;
步骤524,通过将经验数据输入到价值网络中,并计算s(t+1)的价值函数,评估预测模型的优劣情况;
步骤525,通过计算近端比率裁剪损失最大化策略函数的期望回报来实现;
步骤526,重复训练直到达到预设的训练轮数或累积奖励达到最大值。
更近一步地,在步骤521中,所述奖励函数可以表示为:
其中,参数e1表示控制器的预测输出与参考值之间的误差;λ1表示控制器的误差调整值;参数e2表示控制器的预测输出与参考值之间的误差;λ2表示控制器的误差调整值;ksafe为与障碍物之间的安全距离系数,ksafe的范围为[-1,0]。
更近一步地,在步骤6中,通过反馈校正将做出如下的调整:
ηm1(t+j)=ηm(t+j)+θt+j×[η(t)-ηm(t)]
其中,ηm为基于深度强化学习算法生成的预测模型,ηm1为反馈调整后的预测模型,参数θt+j表示反馈校正参数,j=0:1:Np,[η(t)-ηm(t)]为t时刻预测模型与参考轨迹之间的误差;
对预测模型进行调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量u,及下一系列位置信息。
本发明达到的有益效果是:
本发明提出的自动驾驶车辆横向控制方法可获得准确的车辆及环境信息;
本发明提出的自动驾驶车辆横向控制方法对采取到的自动驾驶车辆周围环境获得道路信息,结合高精度导航地图提取车道相关信息,建立坐标系,获得准确的车辆、起终点、障碍物及车道坐标信息。
本发明提出的自动驾驶车辆横向控制方法采用了基于深度强化学习的模型预测控制算法进行自动驾驶车辆横向控制。根据车辆行驶状态、道路信息以及控制系统的稳定性,能够自动生成预测模型,并使用深度强化学习策略参数进行模型反馈调整得到最佳预测模型。
本发明提出的自动驾驶车辆横向控制方法通过及时调整模型预测控制中的预测模型,可以提高控制精度和抗干扰性,通过对预测模型的优化求解,获得最优的转向角度,使得车辆实现精准跟踪轨迹,并能实现精准避撞。
附图说明
图1为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法的框架示意图;
图2为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法的流程示意图;
图3为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法中简化自行车模型的示意图。
具体实施方式
下面结合附图对本发明的技术方案进行更详细的说明,本发明包括但不仅限于下述实施例。
如附图1所示,本发明提出了一种基于DRL-MPC(深度强化学习模型预测控制)的自动驾驶车辆横向控制方法,该方法包括以下步骤:
步骤1,获得自动驾驶车辆的环境信息和自动驾驶车辆的位置状态信息;
通过信号采集系统根据车载传感器组件获取的测量数据以及车载GPS信息提供的车辆位置,从而获得自动驾驶车辆的位置状态信息。并通过车载双目摄像头及激光雷达对自动驾驶车辆前方驾驶环境进行检测,获得环境信息,包括前方道路状态和障碍物信息。
步骤2,建立世界坐标系,将环境信息及车辆位置转化为坐标信息,并建立车辆转角控制模型;
具体还包括以下步骤:
步骤21,通过采集到的环境信息以及车辆位置,建立世界坐标系,将环境信息及车辆位置转化为坐标信息,包括车辆坐标[X,Y,phi]、障碍物坐标[XO,YO],车辆到障碍物的距离d,并根据避撞要求计算出期望轨迹p[Xref,Yref,phiref],其中phi为横摆角,phiref为参考横摆角。
步骤22,由于车辆系统本身较复杂,要建立精准的模型难度系数高,所有建模前需要进行一些合理的假设。经过假设,可根据自行车动力学模型结合轮胎模型建立车辆转角控制模型如下:
在此模型中,状态量为转角控制量为u=δf;输出量为η=[x,y,phi]T。
其中,m是整车质量;a、b分别是质心到前、后轴的距离;是质心横摆角;/>是质心横摆角速度;/>是质心横摆角加速度;/>和/>分别是车辆纵向速度和侧向速度;/>和/>分别是纵向加速度和侧向加速度;Iz是车辆绕z轴的转动惯量;δf是前轮的转角;Ccf和Ccr分别是前、后轮的侧偏刚度;Clf和Clr分别是前、后轮的纵向刚度;sf和sr分别是前、后轮的滑移率;X和Y分别是车辆的在惯性坐标系下的横向和纵向位移。
步骤3,根据车辆转角控制模型获取状态方程,并构建非线性模型预测控制问题获取预测模型;
根据车辆转角控制模型可知,状态量其状态方程可以表达为/>u为转向角控制量,A和B为系统的系数矩阵。
假设采样步长为Ts,预测步长为Np,控制步长为Nc,构建非线性模型预测控制问题:
umin(t+i)≤u(t+i|t)≤umax(t+i)
Δumin(t+i)≤Δu(t+i|t)≤Δumax(t+i)
η(t+i|t)为当前t时刻的预测模型:
η(t+i|t)=[x(t+i|t),y(t+i|t),phi(t+i|t)]T
其中,Np为预测时域,Nc为控制时域,ηref表示当前t时刻预测时域内的参考轨迹,ρ表示权重系数,ε表示松弛因子,矩阵Q是跟踪偏差的权重矩阵;矩阵R是控制增量幅的权重矩阵,Job,i为危险度目标函数,u为控制量,Δu为控制增量,umin、umax分别为控制量的最大值和最小值,Δumin、Δumax为控制增量的最大值和最小值,i=1:1:Np。
步骤4,根据前向欧拉法离散状态方程可得到初始预测模型,通过最优求解得到初始最优控制序列,将最优控制序列代入车辆转角控制模型,得到最新的状态量;
根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为:
…
其中,和/>为离散后系统的系数矩阵,/>为当前时刻k离散后的控制量,uk为当前时刻k的状态量;
则得到初始预测模型η(t+i|t=1),i=1:1:Np,通过最优求解得到初始最优控制序列将最优控制序列代入车辆转角控制模型,得到最新的状态量
步骤5,基于初始最优控制序列、车辆新的行驶轨迹以及车辆跟踪误差构建深度强化学习预测模型预测控制器,通过深度强化学习算法建立预测模型,并进行优化训练得到最佳预测模型,通过最优求解得到最优控制序列;
构建深度强化学习预测模型预测控制器具体步骤如下:
步骤51,深度强化学习预测模型预测控制器定义为深度强化学习的agent,部分车辆行驶信息组成深度强化学习环境的状态,包括车辆质心侧偏角β(t)、横摆角phi(t)、前轮转角状态空间表示为/> 本阶段模型预测控制中的预测模型定义为动作,动作空间表示为a(t)=[x(t+1),y(t+1),phi(t+1);…;x(t+),y(t+Np),phi(t+Np)]。
步骤52,对构建的深度强化学习预测模型进行训练;
训练过程可以通过以下步骤进行描述:
步骤521,环境初始化,初始化部分车辆行驶信息组成的环境状态s(t)和预测模型组成的动作空间a(t)的维度,定义考虑控制器跟踪效果和稳定性的奖励函数并定义终止条件。
奖励函数可以表示为:
其中,参数e1表示控制器的预测输出与参考值之间的误差;λ1表示控制器的误差调整值;参数e2表示控制器的预测输出与参考值之间的误差;λ2表示控制器的误差调整值;ksafe为与障碍物之间的安全距离系数,ksafe的范围为[-1,0]。误差越小、越安全,奖励值越接近1,误差越大、越不安全,奖励值越接近0。说明通过奖励值,可以反映出实际控制系统的控制性能。
终止条件定义为累积奖励值达到1500,或累积训练次数超出10000次。
步骤522,策略网络初始化,用当前策略π(θ)生成估计数据(s,a,r,s′)。
步骤523,采集经验数据,通过使用当前策略网络来选择预测模型,并观察环境返回的奖励和下一车辆行驶参数 来实现。
步骤524,计算优势估计,通过将经验数据输入到价值网络中,并计算s(t+1)的价值函数,评估预测模型的优劣情况。
步骤525,优化策略函数,通过计算近端比率裁剪损失最大化策略函数的期望回报来实现。具体来说,使用梯度上升算法来更新策略网络的参数,以使策略函数朝着最优方向移动。
步骤526,重复执行步骤524至步骤526,直到达到预设的训练轮数10000或累积奖励达到最大值1500。
步骤527,评估训练结果,使用训练好的策略网络来学习最优预测模型,将该预测模型应用于模型预测控制中,进行车辆轨迹跟踪,并判断每个预测模型下的该控制器跟踪效果的表现。
步骤6,对生成的预测模型进行反馈校正调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量u,及下一系列位置信息;
在接受到基于深度强化学习算法生成的预测模型之后,通过反馈校正将做出如下的调整:
ηm1(t+j)=ηm(t+j)+θt+j×[η9t)-ηm(t)]
其中,ηm为基于深度强化学习算法生成的预测模型,ηm1为反馈调整后的预测模型,参数θt+j表示反馈校正参数,j=0:1:Np,[η(t)-ηm(t)]为t时刻预测模型与参考轨迹之间的误差;
其中当参数θt+j较小时,反馈校正调整量θt+j×(η(t)-ηm(t))较小,DRL-MPC调整过程较为稳定,但想得到最优值需要更多时间;当θk+j较大时,反馈校正调整量θt+j×(η(t)-ηm(t))较大,可较快调整完成,但过程较不稳定;当θt+j=0时,则控制器不作调整。通过这个步骤可以保证预测模型的准确度,使得预测值和实际值相接近。
对预测模型进行调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量u,及下一系列位置信息。
步骤7,接收到转角控制量u和下一系列位置信息后,将转角信号和位置信息通过指令生成器生成对应的执行指令,从而控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。具体原理如下:
指令生成器可以将转角控制量u生成对应的执行指令,发送给自动驾驶车辆。
自动驾驶车辆接收到执行信号后,执行相应的转向操作,使车辆按照期望轨迹和期望车速行驶,实现轨迹跟踪控制。然后通过车载传感器组件实时获取相关的测量数据,并将数据进行状态估计。循环往复,最终实现自动驾驶车辆的横向控制。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据实施例和附图公开内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变换或更改的设计,都落入本发明保护的范围。
Claims (8)
1.一种基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,所述基于DRL-MPC的自动驾驶车辆横向控制方法包括以下步骤:
步骤1,获得自动驾驶车辆的环境信息和自动驾驶车辆的位置状态信息;
步骤2,建立世界坐标系,将环境信息及车辆位置转化为坐标信息,并建立车辆转角控制模型;
步骤3,根据车辆转角控制模型获取状态方程,并构建非线性模型预测控制问题获取预测模型;
步骤4,根据前向欧拉法离散状态方程可得到初始预测模型,通过最优求解得到初始最优控制序列,将最优控制序列代入车辆转角控制模型,得到最新的状态量;
步骤5,基于初始最优控制序列、车辆新的行驶轨迹以及车辆跟踪误差构建深度强化学习预测模型预测控制器,通过深度强化学习算法建立预测模型,并进行优化训练得到最佳预测模型,通过最优求解得到最优控制序列;
步骤6,对生成的预测模型进行反馈校正调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量,及下一系列位置信息;
步骤7,接收到行驶轨迹,将转角信号和位置信息通过指令生成器生成对应的执行指令,从而控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。
2.根据权利要求1所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤2中,还包括以下步骤:
步骤21,将位置状态信息,前方道路状态和障碍物信息转化为坐标信息,包括车辆坐标[X,Y,phi]、障碍物坐标[XO,YO],车辆到障碍物的距离d,并根据避撞要求计算出期望轨迹[Xref,Yref,phiref],其中phi为横摆角,phiref为参考横摆角;
步骤22,建立所述车辆转角控制模型,所述车辆转角控制模型为:
其中,m是整车质量;a、b分别是质心到前、后轴的距离;是质心横摆角;/>是质心横摆角速度;/>是质心横摆角加速度;/>和/>分别是车辆纵向速度和侧向速度;/>和/>分别是纵向加速度和侧向加速度;Iz是车辆绕z轴的转动惯量;δf是前轮的转角;Ccf和Ccr分别是前、后轮的侧偏刚度;Clf和Clr分别是前、后轮的纵向刚度;sf和sr分别是前、后轮的滑移率;X和Y分别是车辆的在惯性坐标系下的横向和纵向位移。
3.根据权利要求2所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤3中,状态量为转角控制量为u=δf;输出量为η=[x,y,phi]T,状态量ξ的状态方程可以表达为/>A和B为系统的系数矩阵;
构建非线性模型预测控制问题:
umin(t+i)≤u(t+i|t)≤umax(t+i)
Δumin(t+i)≤Δu(t+i|t)≤Δumax(t+i)
η(t+i|t)为当前t时刻的预测模型:
η(t+i|t)=[x(t+i|t),y(t+i|t),phi(t+i|t)]T
其中,Np为预测时域,Nc为控制时域,ηref表示当前t时刻预测时域内的参考轨迹,ρ表示权重系数,ε表示松弛因子,矩阵Q是跟踪偏差的权重矩阵;矩阵R是控制增量幅的权重矩阵,Job,i为危险度目标函数,u为控制量,Δu为控制增量,umin、umax分别为控制量的最大值和最小值,Δumin、Δumax为控制增量的最大值和最小值,i=1:1:Np。
4.据权利要求3所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤4中,根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为:
…
其中,和/>为离散后系统的系数矩阵,/>为当前时刻k离散后的控制量,uk为当前时刻k的状态量;
则得到初始预测模型η(t+i|t=1),i=1:1:Np;
通过最优求解得到初始最优控制序列将最优控制序列代入车辆转角控制模型,得到最新的状态量/>
是最新的质心横摆角,/>是最新的质心横摆角速度,/>和/>分别是最新的车辆纵向速度和侧向速度,X1和Y1分别是最新的车辆的在惯性坐标系下的横向和纵向位移。
5.据权利要求4所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤5中,还包括以下步骤:
步骤51,深度强化学习预测模型预测控制器定义为深度强化学习的agent,深度强化学习环境的状态包括车辆质心侧偏角β(t)、横摆角phi(t)、前轮转角
状态空间表示为本阶段模型预测控制中的预测模型定义为动作,动作空间表示为a(t)=[x(t+1),y(t+1),phi(t+1);…;x(t+),y(t+Np),phi(t+Np)];
步骤52,并对基于深度强化学习的预测模型进行训练。
6.据权利要求5所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤52中,还包括以下步骤:
步骤521,初始化部分车辆行驶信息组成的环境状态s(t)和预测模型组成的动作空间a(t)的维度,定义考虑控制器跟踪效果和稳定性的奖励函数并定义终止条件;
步骤522,初始化策略网络,用当前策略生成估计数据;
步骤523,采集经验数据,通过使用当前策略网络来选择预测模型;
步骤524,通过将经验数据输入到价值网络中,并计算s(t+1)的价值函数,评估预测模型的优劣情况;
步骤525,通过计算近端比率裁剪损失最大化策略函数的期望回报来实现;
步骤526,重复训练直到达到预设的训练轮数或累积奖励达到最大值。
7.据权利要求6所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤521中,所述奖励函数可以表示为:
其中,参数e1表示控制器的预测输出与参考值之间的误差;λ1表示控制器的误差调整值;参数e2表示控制器的预测输出与参考值之间的误差;λ2表示控制器的误差调整值;ksafe为与障碍物之间的安全距离系数,ksafe的范围为[-1,0]。
8.据权利要求6所述基于DRL-MPC的自动驾驶车辆横向控制方法,其特征在于,在步骤6中,通过反馈校正将做出如下的调整:
ηm1(t+j)=ηm(t+j)+θt+j×[η(t)-ηm(t)]
其中,ηm为基于深度强化学习算法生成的预测模型,ηm1为反馈调整后的预测模型,参数θt+j表示反馈校正参数,j=0:1:Np,[η(t)-ηm(t)]为t时刻预测模型与参考轨迹之间的误差;
对预测模型进行调整后,再次进行滚动优化求解出控制最优值,计算得到最佳转角控制量u,及下一系列位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517431.0A CN117360544B (zh) | 2023-11-14 | 2023-11-14 | 一种基于drl-mpc的自动驾驶车辆横向控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517431.0A CN117360544B (zh) | 2023-11-14 | 2023-11-14 | 一种基于drl-mpc的自动驾驶车辆横向控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117360544A true CN117360544A (zh) | 2024-01-09 |
CN117360544B CN117360544B (zh) | 2024-06-21 |
Family
ID=89391068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311517431.0A Active CN117360544B (zh) | 2023-11-14 | 2023-11-14 | 一种基于drl-mpc的自动驾驶车辆横向控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117360544B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117970810A (zh) * | 2024-03-28 | 2024-05-03 | 北京理工大学 | 一种自适应故障容错控制方法、系统及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113320542A (zh) * | 2021-06-24 | 2021-08-31 | 厦门大学 | 一种自动驾驶车辆的跟踪控制方法 |
CN114185272A (zh) * | 2021-12-03 | 2022-03-15 | 成都信息工程大学 | 一种基于模型预测控制的具有预览特性的自适应速度智能车辆路径跟踪方法 |
US20220194377A1 (en) * | 2020-12-18 | 2022-06-23 | GM Global Technology Operations LLC | Method and system for controlling vehicle operation |
CN114967676A (zh) * | 2022-04-12 | 2022-08-30 | 苏州感测通信息科技有限公司 | 基于强化学习的模型预测控制轨迹跟踪控制系统及方法方法 |
CN115432009A (zh) * | 2022-10-09 | 2022-12-06 | 海南大学 | 一种自动驾驶车辆轨迹跟踪控制系统 |
CN116088498A (zh) * | 2022-12-05 | 2023-05-09 | 重庆邮电大学 | 一种基于mpc与fpga的自动驾驶车辆轨迹跟踪控制方法 |
CN116560371A (zh) * | 2023-05-25 | 2023-08-08 | 上海工程技术大学 | 基于自适应模型预测控制的自动驾驶车辆路径跟踪方法 |
CN116627044A (zh) * | 2023-07-26 | 2023-08-22 | 华东交通大学 | 行驶轨迹预测控制方法 |
-
2023
- 2023-11-14 CN CN202311517431.0A patent/CN117360544B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220194377A1 (en) * | 2020-12-18 | 2022-06-23 | GM Global Technology Operations LLC | Method and system for controlling vehicle operation |
CN113320542A (zh) * | 2021-06-24 | 2021-08-31 | 厦门大学 | 一种自动驾驶车辆的跟踪控制方法 |
CN114185272A (zh) * | 2021-12-03 | 2022-03-15 | 成都信息工程大学 | 一种基于模型预测控制的具有预览特性的自适应速度智能车辆路径跟踪方法 |
CN114967676A (zh) * | 2022-04-12 | 2022-08-30 | 苏州感测通信息科技有限公司 | 基于强化学习的模型预测控制轨迹跟踪控制系统及方法方法 |
CN115432009A (zh) * | 2022-10-09 | 2022-12-06 | 海南大学 | 一种自动驾驶车辆轨迹跟踪控制系统 |
CN116088498A (zh) * | 2022-12-05 | 2023-05-09 | 重庆邮电大学 | 一种基于mpc与fpga的自动驾驶车辆轨迹跟踪控制方法 |
CN116560371A (zh) * | 2023-05-25 | 2023-08-08 | 上海工程技术大学 | 基于自适应模型预测控制的自动驾驶车辆路径跟踪方法 |
CN116627044A (zh) * | 2023-07-26 | 2023-08-22 | 华东交通大学 | 行驶轨迹预测控制方法 |
Non-Patent Citations (1)
Title |
---|
杨洋;孙涛;李洁;: "基于模型预测算法的智能车辆横向控制研究", 农业装备与车辆工程, no. 04, 10 April 2019 (2019-04-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117970810A (zh) * | 2024-03-28 | 2024-05-03 | 北京理工大学 | 一种自适应故障容错控制方法、系统及电子设备 |
CN117970810B (zh) * | 2024-03-28 | 2024-06-21 | 北京理工大学 | 一种自适应故障容错控制方法、系统及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117360544B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733270B (zh) | 车辆行驶轨迹预测和轨迹偏离危险度评估的系统与方法 | |
CN111775949B (zh) | 一种人机共驾控制系统的个性化驾驶员转向行为辅助方法 | |
JP4586795B2 (ja) | 車両用制御装置 | |
CN117360544B (zh) | 一种基于drl-mpc的自动驾驶车辆横向控制方法 | |
CN110780594A (zh) | 一种智能车的路径跟踪方法及系统 | |
CN108791290B (zh) | 基于在线增量式dhp的双车协同自适应巡航控制方法 | |
CN114942642A (zh) | 一种无人驾驶汽车轨迹规划方法 | |
CN116552550A (zh) | 基于参数不确定性和横摆稳定性的车辆轨迹跟踪控制系统 | |
CN111452786B (zh) | 一种无人车辆避障方法及系统 | |
CN116560371A (zh) | 基于自适应模型预测控制的自动驾驶车辆路径跟踪方法 | |
CN115494849A (zh) | 一种自动驾驶车辆导航控制方法及系统 | |
CN110103960B (zh) | 车辆自适应巡航控制方法、系统及车辆 | |
CN115042816A (zh) | 路径跟踪方法、装置、设备、介质及程序 | |
KR20220070467A (ko) | 자동차의 폭방향 및 길이방향 안내 동안 데드타임 보상 기술 | |
CN115525054B (zh) | 大型工业园区无人清扫车沿边路径跟踪控制方法及系统 | |
CN116834754A (zh) | 一种自动驾驶车辆自适应调速的横纵协同控制方法 | |
US20230001940A1 (en) | Method and Device for Optimum Parameterization of a Driving Dynamics Control System for Vehicles | |
CN115675459A (zh) | 一种智能车辆及其路径跟踪的控制方法、装置和存储介质 | |
CN115447615A (zh) | 基于车辆运动学模型预测控制的轨迹优化方法 | |
CN115167424A (zh) | 一种智能农机的路径跟踪控制方法 | |
CN113325849A (zh) | 一种针对高地隙植保机的运动控制方法 | |
CN107885931B (zh) | 一种转向盘突变力矩人性化调节的汽车紧急避撞控制方法 | |
CN113306573A (zh) | 一种自动驾驶车辆学习型路径跟踪预测控制方法 | |
Zhiwei et al. | Simulation research on trajectory tracking controller based on MPC algorithm | |
CN111332278A (zh) | 一种分布式驱动电动车辆横向稳定控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |