CN114967676A

CN114967676A - 基于强化学习的模型预测控制轨迹跟踪控制系统及方法方法

Info

Publication number: CN114967676A
Application number: CN202210379484.XA
Authority: CN
Inventors: 苏岩
Original assignee: Suzhou Gst Infomation Technology Co ltd
Current assignee: Suzhou Gst Infomation Technology Co ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-30

Abstract

本发明涉及一种基于强化学习的模型预测控制轨迹跟踪控制系统，包括线性时变模型预测控制器、规划模块、状态估计模块以及强化学习模块，所述线性时变模型预测控制器包括预测模型、优化求解模块和目标函数＋约束条件模块；预测模型的预测轨迹结合规划模块的参考轨迹输入给优化求解模块，对目标函数和约束条件进行求解，计算出最优控制量发送给被控车辆执行；车辆执行命令后得到状态量反馈给状态估计模块、规划模块、强化学习模块；状态估计模块根据反馈状态量修正模型误差；规划模块进行局部路径规划；强化学习模块根据参考轨迹与实际车辆位置差值调整车辆MPC控制误差权重参数，适配行驶道路与轨迹，提高控制精度。

Description

基于强化学习的模型预测控制轨迹跟踪控制系统及方法方法

技术领域

本发明属于车辆自动驾驶控制技术领域，具体涉及一种基于强化学习的模型预测控制轨迹跟踪控制系统及方法。

背景技术

自动驾驶的控制领域可以根据行驶方向分成横向控制与纵向控制。纵向控制主要是针对车辆油门、刹车的控制，相对来说技术比较成熟；而横向控制是给出控制量控制车辆方向盘朝着参考轨迹逼近，达到轨迹跟踪的目的。

无论是技术成熟的纵向控制，还是研究热门的横向控制，控制的核心仍然是设计满足要求的控制器及其代码实现。调研国内外自动驾驶控制领域发现，普遍应用的控制器包括PID控制器、模糊PID、Stanley控制器、滑模控制(Sliding Mode Controller，SMC)器、模型预测控制(Model Predictive Control，MPC)器、纯跟踪控制器、线性二次调节器(Linear Quadratic Regulator，LQR)等。其中，MPC控制器的思路是结合当前系统的测量值以及预测模型来预测未来一段时间内的控制输出，并且通过求解各种带约束的优化问题使得系统在未来一段时间内误差最小，基于此，MPC控制器鲁棒性较其他控制方法强，精度更高，应用也更为普遍。

然而，即便利用相对优异的控制器，日常行驶的环境变量以及车自身因素，都会导致控制精度的大幅度下滑：对于车辆本身来说，首先传感器的测量误差以及设备老化、车辆载荷变化、四轮定位等因素都会造成控制精度偏差；对于环境因素，包括行驶的道路地形因素、附着系数等。对于车辆自身因素以及传感器精度偏差，虽是无可避免，但却可以通过调节控制算法的控制参数来补偿。然而对于行驶路况因素，由于道路的地形变化，摩擦系数并非定值，道路曲率也是时变的，因此当控制器在某一路段可以实现较高精度的控制时，并不代表它适用于其他所有路段。当行驶道路发生改变时，控制器的某些参数，包括横向误差权重、横摆角误差权重、车辆侧偏系数等是会发生改变的，针对固定的控制器参数来说，此时对车辆的横向控制，肯定是会产生一定偏差，从而降低车辆行驶稳定性以及安全性。

检索发现，CN110221611A公开了一种轨迹跟踪控制方法、装置及无人驾驶车辆，CN110568760A公开了一种适用于换道及车道保持的参数化学习决策控制系统及方法。其中，CN110221611A公开的优化方法是利用强化学习的方法将这些繁琐的过程用神经网络去拟合与训练。众所周知，将可求解的物理模型替换成参数拟合的神经网络，优点是可以省略去复杂的计算过程，但缺点是相当于将原本清晰的内部逻辑结构转变成一个黑匣子，并不能了解内部运行机制并且很容易出现错误，因此对于车辆控制而言是一个很大胆且危险的做法。同时，CN110221611A公开的优化方法采用的是训练A3C模型，CN110221611A公开的优化方法神经网络输入的状态量是轨迹的横向偏差，输出的直接是控制量。CN110568760A公开的专利表述的是有一种基于强化学习的决策行为模块，当感知信号输入给该决策模块，根据强化学习的训练可以自主决策出未来一段时域内车辆的轨迹路线，其中路线包含车辆侧向偏移T_y、行为时间Tf、以及加减速行为，这些决策参数会下发给轨迹规划模块生成轨迹输入到MPC控制器去求解最优的控制量。因此，该专利侧重于采用强化学习学习决策行为，MPC控制器并没有改进。

发明内容

本发明的目的在于，针对现有技术存在的缺陷，提出一种基于强化学习的模型预测控制轨迹跟踪控制系统及方法，该方法针对模型预测控制器的固定参数不适应多路况情况下造成的轨迹跟踪控制误差这种情况，采用DDPG算法对误差参数进行训练学习，使控制器在控制车辆行驶时根据实际状态信息与参考轨迹及时调整控制参数，减少控制误差，提高控制精度。

为了达到以上目的，本发明提供一种基于强化学习的模型预测控制轨迹跟踪控制系统，包括线性时变模型预测控制器、规划模块、状态估计模块以及强化学习模块，所述线性时变模型预测控制器包括预测模型、优化求解模块和目标函数+约束条件模块；所述预测模块，用来表征车辆并预测其在未来预测时域内的行驶轨迹；

所述优化求解模块，用来对目标函数+约束条件模块进行求解，计算出最优控制量后，发送给被控车辆执行；

所述目标函数+约束条件模块，确定MPC控制器控制车辆进行轨迹跟踪时，计算下发的最优控制量的数值范围以及相隔控制时域内控制量的增量大小；

所述规划模块，用来根据车辆反馈的状态量及时发布局部规划路径轨迹给线性时变模型预测控制器；

所述状态估计模块，用来矫正理论建立的车辆动力学模型与实际车辆模型之间的模型误差，使理论模型逼近于实际车辆的动力学特性；

所述强化学习模块，用来根据车辆与参考轨迹之间的控制误差，及时调整线性时变模型预测控制器的误差权重参数，适配行驶道路与轨迹，提高控制精度。

本发明公开了一种基于强化学习的模型预测控制(Model Predictive Control，MPC)轨迹跟踪控制系统，适用于车辆自动驾驶时的横向轨迹跟踪控制。该系统主要包括两部分：MPC控制器以及强化学习模块。MPC控制器包含预测模型、优化求解模块以及约束条件成本函数三部分；强化学习模块为Actor与Critic神经网络。采用本系统，能够分析车辆力学特性，建立整车动力学模型；对非线性模型泰勒级数线性化以及欧拉离散化得到关于车辆状态空间的预测模型；优化求解模块基于约束条件对MPC成本函数求解，计算最优控制量；针对MPC控制器固定的误差权重矩阵，采用强化学习的深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)算法对其进行学习训练。本系统结合强化学习的思想，较大程度上提升了MPC控制器的控制性能，提升了车辆轨迹跟踪的能力与对行驶环境的鲁棒性。

本发明还提供一种基于强化学习的模型预测控制轨迹跟踪控制方法，包括以下步骤：

步骤1、利用定位模块获取车辆初始位置信息，规划模块规划局部参考轨迹，并将轨迹的对地坐标系绝对坐标值数据发送给线性时变模型预测控制器；

步骤2、线性时变模型预测控制器的优化求解模块结合目标函数+约束条件模块根据目标函数以及约束条件求解出最优的车辆前轮转角控制量；

步骤3、优化求解模块将最优的车辆前轮转角控制量发送给被控车辆的执行器，车辆执行之后将下一时刻的状态信息反馈到状态估计模块、强化学习模块和规划模块；

步骤4、状态估计模块计算系统参考模型与车辆实际的模型之间的偏差，并将计算结果输入给线性时变模型预测控制器，以修正其预测模型的误差；

步骤5、规划模块根据下一时刻的状态信息重新规划车辆参考轨迹，强化学习模块根据实际的车辆轨迹状态与规划模块重新规划的参考轨迹之间的差值来调整线性时变模型预测控制器中的误差权重参数。

本发明进一步的采用如下技术方案：

所述步骤2中，目标函数的定义如下：

式中，Q表示输出权重的正定矩阵，R表示控制权重的正定矩阵，ρ是松弛因子权重，ε是松弛因子，

表示t时刻的状态量，ΔU(t)表示t时刻的控制增量，N_p表示预测时域，N_c表示控制时域，η表示t时刻预测的t至t+i时刻之间的系统输出序列，Δu表示t时刻预测的t至t+i时刻之间的控制增量序列；上式由三部分组成，分别表征车辆的输出状态量、控制量以及松弛项。前者根据预测时域内的系统输出量，来反映控制算法控制车辆轨迹跟踪的误差程度；控制项根据控制时域内的控制输入量增量，来反映单位时间内控制量的变化速度，保证转向的平稳性以及转弯曲率；松弛项的加入是为了防止实际车辆行驶过程中产生的不确定变化导致的目标函数无最优解情况；

目标函数中的控制权重矩阵R是一个一维矩阵，输出权重矩阵Q是二维的矩阵，其形式如下：

式中，q_lat表示横向误差权重，q_ψ表示横摆角误差权重。

所述步骤2中，约束条件的定义如下：

(1)行车稳定性约束

式中，δ代表前轮转角变量，δ_H为良好附着系数下的前轮转角极限值，δ_L，为低附着系数下的前轮转角极限值，l_f表示车辆的前轴到车辆质心间的距离，l_r表示车辆的后轴到车辆质心间的距离，β_H表示在良好附着系数情况下的质心侧偏角，β_L表示在低附着系数情况下的质心侧偏角，它们是质心车速与车辆纵轴x之间形成的角度；

(2)前轮摆动约束

式中，δ_min为车辆前轮最小转角，δ_max为车辆前轮最大转角，Δδ_min为车辆前轮单位时间内最小的增量，Δδ_max为车辆前轮单位时间内最大的增量，Δδ表示车辆前轮在单位时间内的增量；

(3)输出状态约束

式中，e_{lat min}为车辆最小的横向轨迹误差，e_{lat max}为车辆最大的横向轨迹误差，e_{ψ min}为车辆最小的横摆角误差，e_{ψ max}为车辆最大的横摆角误差，e_lat表示车辆的横向轨迹误差，e_ψ为车辆的横摆角误差。

所述步骤2中，优化求解模块求解最优车辆前轮转角控制量的过程如下：

步骤2-1、定义矩阵Q_e与R_e：

式中，

为克罗内积运算符，I_Np为维度为N_p的单位矩阵，I_Nc为维度为N_c的单位矩阵；

步骤2-2、将目标函数表达式改写为：

式中，Y表示t时刻预测的t至t+i时刻之间的系统输出序列矩阵，ΔU表示t时刻预测的t至t+i时刻之间的控制增量序列矩阵，

均为系数矩阵，H_t为表征Q_e的过程矩阵，

为表征R_e的过程矩阵，P_t为常数项不影响求解，可以忽略；

步骤2-3、将MPC控制问题转换成二次规划问题，重写目标函数与约束条件如下：

st.ΔU_min≤ΔU(t)≤ΔU_max

U_mid≤U(t)≤U_max

其中，ΔU_min表示车辆控制量变化的最小值，ΔU_max表示车辆控制量变化的最大值，ΔU(t)为车辆控制量变化值；U_min为车辆控制量的最小值，U_max为车辆控制量的最大值，U(t)为车辆控制量；Y_{c min}为系统状态量的最小硬约束，Y_{c max}为系统状态量的最大硬约束；Y_{sc min}为系统状态量的最小软约束，Y_{sc max}为系统状态量的最大软约束。

所述步骤3中，控制器控制量为车辆前轮转角，状态量包括车辆坐标XY值、车辆横向速度、车辆纵向速度、车辆横摆角、车辆横摆角速度，以及预测模型输出车辆横向误差与横摆角误差。

所述步骤5中，强化学习模块的设计如下：

定义强化学习模块的观测状态为横摆角偏差、横向偏差，动作集为横向误差权重以及横摆角误差权重；

搭建Actor网络，Actor网络包括一个三维状态输入层，两个全连接层作为隐藏层，一个二维动作输出层；其中状态输入层之后为第一隐藏层，由200个神经元组成，为全连接层；第一层之后为第二隐藏层，由128个神经元组成，也是全连接层；第二隐藏层之后连接二维动作输出层。Actor网络动作的输出层激活函数为双曲正切函数(Tanh)；

搭建Critic网络，Critic网络由两个输入层、两个全连接层和一个输出层组成；其中在二维状态输入层之后为第一隐藏层，由200个神经元组成，为全连接层；二维动作输入层与第一隐藏层连接到第二隐藏层，该层由128个神经元组成，也为全连接层；第二隐藏层一维连接输出层，输出层输出动作的价值函数。动作价值函数输出层的激活函数采用恒等变换(identity)；

Actor网络更新策略为确定性策略梯度加Omstein-Uhlenbeck(1930)过程噪声，增加随机探索性；Critic网络基于价值函数，通过最小化loss函数更新Critic网络；

奖励函数设置分成横向误差范围与横摆角误差范围，横向误差范围分成小于0.05m、小于0.10m、小于0.15m、小于0.20m、小于0.30m、大于0.40m、大于1.00m、大于3.00m；横摆角误差范围分成小于0.05rad、小于0.10rad、小于0.20rad、小于0.25rad、大于0.30rad、大于0.40rad、大于0.50rad。

所述步骤5中，强化学习模块神经网络的更新步骤如下：

步骤5-1、在观测状态s_t下，遵循加入噪声过程的策略选取动作a_t，进入到下一个时刻的状态s_t+1，并且得到奖励值R_t+1；

步骤5-2、将序列(s_t，a_t，R_t+1，s_t+1)储存在经验回放池里，并随机采样n组序列(s_t，a_t，R_t+1，s_t+1)；

步骤5-3、设置价值函数的目标值y_t＝r(s_t，a_t)+γQ′(s_t+1，μ′(s_t+1)|ω′)，其中r表示t时刻的奖励，γ表示t时刻的折扣因子，Q′表示t+1时刻的Q值，μ′表示t+1时刻的目标actor网络，ω′表示t+1时刻的目标critic网络；

步骤5-4、通过最小化loss函数更新Critic网络，表达式如下：

步骤5-5、以采样梯度更新Actor网络，表达式如下：

步骤5-6、更新目标Actor网络与Critic网络：θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ′，τ＜＜1

其中，

表示当前Critic网络与另一个Critic网络β时之间损失函数的期望值，ω表示当前Critic网络的网络参数，y_t表示另一个Critic网络β的计算价值，

表示当前actor网络的损失函数期望值，

表示当前价值的梯度，a＝μ(s_t)表示基于当前s_t通过actor网络计算得到的动作值a，

表示当前actor网络选择动作的策略梯度，θ^Q′表示目标Critic网络，θ^μ表示目标Actor网络，θ^Q表示当前Critic网络，θ^μ表示当前Actor网络，τ为更新率。

本发明采用MPC控制器的设计，包括动力学建模、模型表达式求解、MPC预测模型建立、目标函数以及约束条件的设置、以及在约束条件内的目标函数求解优化等环节。本发明在传统的MPC控制器设计思路基础上，对公式的推导进行了简化，使得对车辆的控制有理论模型基础来支撑。本发明对固定的目标函数误差权重参数用强化学习的方法去训练，使得车辆在不同环境行驶时，控制器可匹配最优的误差权重，从而减少控制误差。在保证车辆控制的理论逻辑正确的基础上采用强化学习训练的方法，是稳中求精的做法。同时，MPC虽然是经典控制器，但是根据其设计的思路、选取的变量等因素，所关注的重点也不同，本发明根据车辆横向控制，选取状态量为对地绝对坐标、横纵向速度等，控制量为前轮转角，并且设置约束条件主要围绕着对前轮转角的限制展开。此外，本发明的DDPG神经网络输入的状态量是轨迹的横向偏差与横摆角偏差以及道路的曲率，输出的是对横向误差权重以及横摆角误差权重数值的调节。与传统方法相比，本发明采用的DDPG方法，动作空间方差小，算法收敛速度上要高于A3C；强化学习的奖励函数、状态选择、动作的定义以及搭建的神经网络结构都与传统方法不相同。总之，本发明设计的是利用强化学习的方法优化MPC控制器的误差权重参数，从而达到减少控制误差、提高鲁棒性的目的。

另外，由于控制误差产生的直接因素在于控制器的控制精度，哪怕决策参数再如何精确，不够精确的控制器计算的控制量依旧是存在控制误差的关键所在。与现有技术相比，本发明通过强化学习对控制器误差权重参数的训练达到优化MPC控制器的目的，从而减小了控制误差，提高了控制器对环境的鲁棒性。

本发明的优点如下：

(1)基于强化学习的思想，针对不同路况改变控制器参数，控制精度显著提升；

(2)变参数的控制器可以显示出对行驶环境更好的鲁棒性；

(3)控制器单条控制指令计算到发布测试周期小于0.0ls，控制实时性好。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的控制框架图。

图2为本发明的DDPG算法Actor神经网络构成图。

图3为本发明的DDPG算法Critic神经网络构成图。

具体实施方式

实施例一

如图1所示，一种基于强化学习的模型预测控制轨迹跟踪控制系统，包括线性时变模型预测控制器、规划模块、状态估计模块以及强化学习模块，其中线性时变模型预测控制器包括预测模型、优化求解模块和目标函数+约束条件模块。预测模块，用来表征车辆并预测其在未来预测时域内的行驶轨迹；优化求解模块，用来对目标函数+约束条件模块进行求解，计算出最优控制量后，发送给被控车辆执行；目标函数+约束条件模块，确定MPC控制器控制车辆进行轨迹跟踪时，计算下发的最优控制量的数值范围以及相隔控制时域内控制量的增量大小；规划模块，用来根据车辆反馈的状态量及时发布局部规划路径轨迹给线性时变模型预测控制器；状态估计模块，用来矫正理论建立的车辆动力学模型与实际车辆模型之间的模型误差，使理论模型逼近于实际车辆的动力学特性；强化学习模块，用来根据车辆与参考轨迹之间的控制误差，及时调整线性时变模型预测控制器的误差权重参数，适配行驶道路与轨迹，提高控制精度。

一种基于强化学习的模型预测控制轨迹跟踪控制方法，包括以下步骤：

步骤1、利用定位模块获取车辆初始位置信息，规划模块根据车辆初始位置信息采用A*算法规划局部参考轨迹，并将该轨迹的对地坐标系绝对坐标值数据发送给线性时变模型预测控制器的优化求解模块进行最优控制量的计算求解。同时，预测模块根据车辆初始位置信息通过其内预测模型预测未来预测时域内的行驶轨迹作为反馈环节将预测轨迹发送给优化求解模块。

步骤2、线性时变模型预测控制器的优化求解模块接收规划模块的参考轨迹和预测模块的预测轨迹后结合目标函数+约束条件模块根据目标函数以及约束条件求解出最优的车辆前轮转角控制量。

其中，目标函数的定义如下：

式中，Q和R分别表示输出权重以及控制权重的正定矩阵，ρ是松弛因子权重，ε是松弛因子，

表示t时刻的状态量，ΔU(t)表示t时刻的控制增量，N_p、N_c分别表示预测时域与控制时域，η、Δu分别表示t时刻预测的t至t+i时刻之间的系统输出序列以及控制增量序列。上式由三部分组成，分别表征车辆的输出状态量、控制量以及松弛项。前者根据预测时域内的系统输出量，来反映控制算法控制车辆轨迹跟踪的误差程度；控制项根据控制时域内的控制输入量增量，来反映单位时间内控制量的变化速度，保证转向的平稳性以及转弯曲率；松弛项的加入是为了防止实际车辆行驶过程中产生的不确定变化导致的目标函数无最优解情况。

式中，q_lat表示横向误差权重，q_ψ表示横摆角误差权重。

约束条件分成三部分，分别为行车稳定性约束、前轮摆角约束以及输出状态约束。前二者限制车辆在地形因素以及车辆自身物理条件因素下的前轮摆角与角速度，最后一项是限制车辆轨迹跟踪过程中的误差项。那么，约束条件的定义如下：

(1)行车稳定性约束

式中，δ代表前轮转角变量，δ_H为良好附着系数下的前轮转角极限值，δ_L为低附着系数下的前轮转角极限值，l_f表示车辆的前轴到车辆质心间的距离，l_r表示车辆的后轴到车辆质心间的距离，β_H表示在良好附着系数情况下的质心侧偏角，β_L表示在低附着系数情况下的质心侧偏角，它们是质心车速与车辆纵轴x之间形成的角度；

(2)前轮摆动约束

(3)输出状态约束

优化求解模块将MPC控制问题转换成二次规划求解问题，求解最优车辆前轮转角控制量的具体步骤如下：

步骤2-1、定义矩阵Q_e与R_e：

式中，

为克罗内积运算符，I_Np与I_Nc分别为维度为N_p与N_c的单位矩阵；

步骤2-2、将目标函数表达式改写为：

式中，Y、ΔU分别表示t时刻预测的t至t+i时刻之间的系统输出序列矩阵以及控制增量序列矩阵，

均为系数矩阵，H_t、

为表征Q_e与R_e的过程矩阵，P_t为常数项不影响求解，可以忽略；

st.ΔU_min≤ΔU(t)≤ΔU_max

U_min≤U(t)≤U_max

其中，ΔU_min、ΔU_max分别表示车辆控制量变化的最小值与最大值，ΔU(t)为车辆控制量变化值；U_min、U_max为车辆控制量的最小与最大值，U(t)为车辆控制量；Y_{c min}、Y_{c max}分别为系统状态量的最小硬约束和最大硬约束；Y_{sc min}、Y_{sc max}分别为系统状态量的最小软约束和最大软约束。

步骤3、优化求解模块将求出的最优车辆前轮转角控制量发送给被控车辆的执行器执行，车辆执行操作之后得到的状态量

将被反馈到状态估计模块、强化学习模块和规划模块。

控制器获得的前轮转角控制量U(t)为车辆前轮转角，状态量

包括车辆坐标XY值、车辆横向速度、车辆纵向速度、车辆横摆角、车辆横摆角速度，以及预测模型输出车辆横向误差与横摆角误差。

步骤4、状态估计模块接收车辆执行完控制量后的车辆状态，与理论建模得到的动力学参考模型做比对得到模型误差用于修正残奥模型，状态估计模块通过参数拟合的方法计算系统参考模型数据与车辆实际的模型数据之间的偏差，以动力学模型参数偏差的形式将拟合结果输入给线性时变模型预测控制器，修正其预测模型的参数误差。预测模型修正误差后再次预测车辆未来预测时域内的行驶轨迹并将预测轨迹输入给优化求解模块。

步骤5、规划模块根据下一时刻的状态信息重新规划车辆参考轨迹并将参考轨迹输入到强化学习模块和优化求解模块。强化学习模块根据实际的车辆轨迹状态与规划模块重新规划的参考轨迹之间的差值来调整线性时变模型预测控制器中的误差权重参数，达到根据不同行驶路面状况，去改变误差权重参数，使其可以适配更多复杂的路面，减少因为固定参数导致的轨迹跟踪误差。

上述步骤4和步骤5中，预测模块的预测轨迹和规划模块的参考轨迹输入到优化求解模块后，返回步骤2进行操作，即优化求解模块对目标函数+约束条件模块进行求解，并将求解的最优车辆前轮转角控制量发给车辆执行。

步骤5中，强化学习模块包括状态集、动作集、Actor-Critic网络、网络更新策略以及奖励函数几个部分，强化学习模块的设计如下：

定义强化学习模块的观测状态为横摆角偏差、横向偏差，动作集为横向误差权重以及横摆角误差权重。

如图2所示，搭建Actor网络。Actor网络包括一个三维状态输入层，两个全连接层作为隐藏层，一个二维动作输出层。其中状态输入层之后为第一隐藏层，由200个神经元组成，为全连接层；第一层之后为第二隐藏层，由128个神经元组成，也是全连接层；第二隐藏层之后连接二维动作输出层。Actor网络动作的输出层激活函数为双曲正切函数(Tanh)。

如图3所示，搭建Critic网络。Critic网络由两个输入层、两个全连接层和一个输出层组成。其中在二维状态输入层之后为第一隐藏层，由200个神经元组成，为全连接层；二维动作输入层与第一隐藏层连接到第二隐藏层，该层由128个神经元组成，也为全连接层；第二隐藏层一维连接输出层，输出层输出动作的价值函数。动作价值函数输出层的激活函数采用恒等变换(identity)。

Actor网络更新策略为确定性策略梯度加Omstein-Uhlenbeck(1930)过程噪声，增加随机探索性；Critic网络基于价值函数，通过最小化loss函数更新Critic网络。

奖励函数设置分成横向误差范围与横摆角误差范围，根据表1可以看到划分的误差范围以及奖励值情况。横向误差范围分成小于0.05m、小于0.10m、小于0.15m、小于0.20m、小于0.30m、大于0.40m、大于1.00m、大于3.00m；横摆角误差范围分成小于0.05rad、小于0.10rad、小于0.20rad、小于0.25rad、大于0.30rad、大于0.40rad、大于0.50rad。

表1奖励分配表

强化学习模块的神经网络的更新步骤如下：

步骤5-3、设置价值函数的目标值y_t＝r(s_t，a_t)+γQ′(s_t+1，μ′(s_t+1)|ω′)，其中r、γ、Q′、μ′、ω′分别表示t时刻的奖励、折扣因子、t+1时刻的Q值、目标actor网络以及目标critic网络；

步骤5-4、通过最小化loss函数更新Critic网络，表达式如下：

步骤5-5、以采样梯度更新Actor网络，表达式如下：

其中，

ω、y_t分别表示当前Critic网络与另一个Critic网络β时之间损失函数的期望值、当前Critic网络的网络参数、另一个Critic网络β的计算价值，

a＝μ(s_t)、

分别表示当前actor网络的损失函数期望值、当前价值的梯度、基于当前s_t通过actor网络计算得到的动作值a、当前actor网络选择动作的策略梯度，θ^Q′、θ^μ′分别表示目标Critic网络和目标Actor网络，θ^Q表示当前Critic网络，θ^μ表示当前Actor网络，τ为更新率。

本发明采用规划模块规划局部参考轨迹，控制器的预测模型预测未来预测时域内的行驶轨迹，预测轨迹结合规划模块的参考轨迹输入给优化求解模块，优化求解模块对目标函数+约束条件模块进行求解，计算出最优控制量，发送给被控车辆执行；车辆执行控制命令之后得到的状态量反馈给状态估计模块、规划模块、强化学习模块；状态估计模块根据反馈状态量修正预测模型误差，预测模型修正误差后再次预测未来预测时域内的行驶轨迹并将预测轨迹输入给优化求解模块；规划模块再次进行局部路径规划并将重新规划的参考轨迹输入给优化求解模块和强化学习模块(优化求解模块能够根据重新输入的预测轨迹和参考轨迹对目标函数+约束条件模块进行再次求解)；强化学习模块根据参考轨迹与实际车辆位置差值进行调整车辆MPC控制误差权重参数，适配行驶道路与轨迹，提高控制精度。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。