CN110615003B

CN110615003B - 基于策略梯度在线学习算法的巡航控制系统及设计方法

Info

Publication number: CN110615003B
Application number: CN201910952171.7A
Authority: CN
Inventors: 高炳钊; 张羽翔; 郭露露; 陈虹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-09-18
Anticipated expiration: 2039-10-30
Also published as: CN110615003A

Abstract

本发明属于汽车先进智能辅助驾驶系统设计及汽车安全技术领域，具体的说是一种基于策略梯度在线学习方法设计的巡航控制系统及方法。本发明将基于策略梯度的强化学习方法，针对车辆系统控制问题的需求，设计了一种基于策略梯度在线学习方法设计的自适应巡航控制系统。该系统适用于L2级别自动驾驶车辆，目标是通过在线学习有效提高系统对不同环境的适应能力，在不同环境下得到一致的控制性能。本发明进一步地对学习框架进行改进，以提高学习算法的效率及稳定性，使得在实际问题中，车辆可以快速地适应变化的环境。

Description

基于策略梯度在线学习算法的巡航控制系统及设计方法

技术领域

本发明属于汽车先进智能辅助驾驶系统设计及汽车安全技术领域，具体的说是一种基于策略梯度在线学习算法的巡航控制系统及设计方法。

背景技术

随着智能驾驶辅助技术的不断发展，越来越多的先进控制方法被应用于车辆智能辅助驾驶系统(ADAS)的系统设计中，其中在纵向智能辅助驾驶系统-自适应巡航控制系统的设计开发中，PID、模糊控制、线性二次型优化控制，模型预测控制等先进控制方法先后被应用，但随着系统功能设计进一步完善，在系统设计中更多的设计要求被提出以获得更好的系统性能。车辆驾驶过程中，道路环境会不断发生变化。如不同路段的道路坡度不同，不同路面的道路附着系数不同。不同的驾驶员，期望的驾驶风格亦会有所不同。而这些不同的环境变化，在系统设计阶段很难被完整的设计进入系统中。因此，对于自适应巡航系统进一步地提出了自学习的系统要求。近年来，机器学习方法在世界范围内得到了广泛关注，其中强化学习方法，具有序列控制特性，且可基于环境反馈在线进行学习调整，可通过设计很好的应用于车辆控制中，满足自适应巡航系统对于多变驾驶环境的适应性学习。在强化学习算法类中，多为基于离散状态及动作空间的方法，基于策略梯度的方法因可使用神经网络等非线性函数逼近器在连续的状态及动作空间中进行学习，更适用于车辆系统的控制问题。

发明内容

本发明将基于策略梯度的强化学习方法，针对车辆系统控制问题的需求，设计了一种基于策略梯度在线学习方法设计的巡航控制系统及方法。该系统适用于L2级别自动驾驶车辆，目标是通过在线学习有效提高系统对不同环境的适应能力，在不同环境下得到一致的控制性能，解决了现有技术中存在的上述问题。

本发明技术方案结合附图说明如下：

一种基于策略梯度在线学习算法的巡航控制系统，该系统包括智能感知信号处理模块A、模式切换模块B、学习模块C和车辆执行控制模块D；

所述智能感知信号处理模块A，用于获得当前车辆和前方车辆行驶状态信息并进行信号处理；

所述模式切换模块B，用于对学习系统中不同模式进行切换，基于规则方法设计模式切换策略；

所述学习模块C，用于学习跟车策略并根据环境进行在线更新；

所述车辆执行控制模块D，用于对实际控制量进行跟踪控制，采用双层前馈加反馈PID 控制器实现；

所述智能感知信号处理模块A与模式切换模块B、学习跟车模块C以及执行控制模块D 相连；所述模式切换模块B与学习跟车模块C相连；所述学习跟车模块C与执行控制模块D 相连。

一种基于策略梯度在线学习算法的巡航控制系统的设计方法，该方法包括以下步骤：

步骤一、通过智能感知信号处理模块A获得车辆控制算法所需的状态信息，包括：借助车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆，并得到当前车辆和前方车辆行驶状态信息；并且根据前车车速通过计算得到加速状态；

步骤二、通过模式切换模块B切换学习系统中的不同模式，基于规则方法设计模式切换策略，用于切换上层控制器中的不同控制模式，其中这些控制模式有：启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式；

步骤三、通过学习跟车模块C针对不同的模式使用不同控制方法，构建一个可连续学习的在线跟车学习模块，其中最重要的是跟车学习模式，在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为；测试模式应用强化学习学到的策略验证学习效果；非跟车模式应用于无前车的情况，直接使用强化学习方法对本车进行速度控制；以上三种模式均建立在强化学习系统框架下；启停模式与恢复模式使用比例-积分-微分PID控制器进行控制；

步骤四、通过车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证跟踪控制精度。

所述步骤一的具体方法如下：

在智能感知信号处理模块A中，通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号，位置，速度信息，以及本车的运动状态；

同时，根据前车车速使用二次均值滤波得到前车的加速状态，作为后续控制算法的状态输入。

所述步骤二的具体方法如下：

模式切换模块B针对的模式有启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式；在上层控制器中不同模式的切换中，使用基于规则方法设计模式切换策略，其中用于切换的具体条件如下：

C1:是否满足算法控制车辆车速条件；车速降低至低于15km/h则不满足本算法控制条件即C1＝0，直到车速增加至超过20km/h重新满足本算法控制条件即C1＝1；

C2:前方是否有待跟随车辆，若有待跟随车辆C2＝0，若无待跟随车辆C2＝1；

C3:是否满足自适应巡航条件；即前车车速与当前车辆设定车速关系，若前车车速高于本车设定车速则不满足跟车条件即C3＝0，否则C3＝1；

C4:是否满足学习条件；即当前车辆与前车的距离及速度关系是否适合进行跟车学习，不满足跟车学习即C4＝0的条件有：车头时距小于1或前车距离高于最远跟车距离，否则 C4＝1；

C5:当前车辆设定状态；分为两种，学习状态即C5＝1及测试状态即C5＝0。

所述步骤三的具体方法如下：

在学习跟车模块C中，通过不同的模式间的切换策略，构建了一个可连续学习的在线跟车学习模块，并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法，其中，启停模式与恢复模式使用比例-积分-微分PID控制器进行控制；而最重要的是跟车学习模式，在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为；测试模式应用强化学习学到的策略验证学习效果；非跟车模式应用于无前车的情况，直接使用强化学习方法对本车进行速度控制；以上三种模式均建立在强化学习系统框架下；在连续状态空间及连续动作空间中基于强化学习中的策略梯度方法及Actor-Critic框架进行在线学习；为了进一步提高系统安全性，针对此类算法的效率及稳定性低的弱点，近一步的对Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性，这种方法称为策略引导强化学习方法；具体方法如下：

3.1)策略引导强化学习方法：针对连续状态及动作的强化学习算法的效率及稳定性低的弱点，在Actor-Critic框架下，对Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性；基于状态s，Actor神经网络输出采取动作a，Critic神经网络基于动作执行前后的状态转移(s→s')估计状态值函数，并根据回报r计算TD-error进行评价用于更新；动作网络的更新公式可表示为：

其中，θ为动作网络参数；α为学习率；

为对动作策略π的求导；δ为估计误差；sign(δ)和|δ|分别为其符号及大小；δ用时序差分方法进行计算，δ_TD(0)可表示为

其中，r为状态s执行动作a后得到的回报信号；γ∈(0,1)为折扣率；

和

分别为Critic网络在状态转移后s'以及前s估计的状态值函数；ω为动作网络参数；多步(t 步)估计时，δ_TD(t)可表示为

其中，r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号；

和

分别为Critic网络在状态转移后s(k+t)以及前s(k)估计的状态值函数；

策略π将动作搜索与动作利用结合，使用正态分布方式搜索动作空间，可表示为：

其中，s为当前状态，α为选择的动作，θ为动作网络参数，μ(s；θ)为当前状态下动作网络的输出值，为动作搜索的均值，σ(s)为动作搜索的标准差；因此，式(1)进一步改写为：

其中，θ为动作网络参数，α为学习率，δ为估计误差，sign(δ)和|δ|分别为其符号及大小，μ(s；θ)为当前状态下动作网络的输出值，

为对动作网络输出层函数的求导，σ(s) 为动作搜索的标准差，α为选择的动作；

因此，在更新公式中，除了对于网络本身梯度的求导，由于强化学习一般使用较小的学习率，此过程中，sign(δ)决定了策略μ(s；θ)向a的更新方向，也是更新的重要因素；可以看到，在此过程中，好的策略搜索对于学习影响巨大；由于动作空间大，且基于实际物理系统，搜索步长受限制；因此，将评价由对于某一动作的评价变为对于搜索方向的评价，使用归一化的评价函数，监督评价信号，具体的实施方式为：

对于t时刻，状态s对应的待评价状态分量的实际值与期望值分别为x,x*，及t+1时刻的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*；因此，归一化后的新项 y,y*,y',y'*可以表示为

对于跟踪问题而言，归一化后问题被统一为y'达到零点；归一化后的评价信号d可表示为：

其中，m为较大的常数值，这里取m＝100；

y分别为归一化的上下边界，分别取值为max(y′*,1),min(y′*,1)；使用评价信号d可不基于模型对搜索方向进行评价；在此评价信号的基础上，在连续学习过程中，上一时刻动作的搜索方向及评价信号被用于指导下一时刻的动作搜索，即在每一个批训练集内，每个时刻的搜索方向，在没有好的指导方向时，采用随机的搜索方向；当有差的搜索方向时，采用与其相反的搜索方向；当有好的搜索方向时，采用与其相同的搜索方向；同时在此批训练集内，定义每个搜索方向的基准d_base，记录与其搜索方向相反的待评价状态变化值；假定在批训练集内，学习环境变化不变当前策略差时，两个搜索方向均无法得到正的评价信号d；此时，将当前搜索方向的基准d_base，即与当前搜索方向相反的待评价状态变化值，加入当前的状态变化；比较多步估计信号δ_TD(t)与评价信号d，若二者符号相同，则使用式(3)作为误差信号估计，否则使用评价信号进行更新；此种情况下，动作网络以及值函数网络的更新信号e_a，e_c可表示为：

具体计算过程如下：

步骤(1)：参数初始化包括Actor，Critic网络权值及学习率，批训练集样本数n，最大步数N；

步骤(2)：初始化环境；

步骤(3)：基于当前状态及上一时刻评价信号选择动作，得到回报，进行评价，更新基准，执行状态转移；

步骤(4)：如果样本集中个数未达到n中且状态未达终态或到达最大步数，重复步骤(3)，否则执行步骤(5)；

步骤(5)：在批量样本中，由后向前循环计算状态s_t值函数的计算值R_t，迭代公式为R_t＝r_t+γR_t+1，其中t+1＝T时，

并将多步估计信号

与评价信号d的符号对比；如果，sign(d)＝sign(δ_TD(t))，使用δ_TD(t)更新；否则，使用式(8)更新；其中r_t表示状态s_t执行a_t得到的回报，γ∈(0,1)为折扣率，

为Critic网络在状态s_t，s_t+1估计的状态值函数；

步骤(6)：判断策略是否收敛，如果不收敛，则重复步骤(2)-(5)，直到策略收敛；

3.2)学习跟车模块在线学习系统建立：将以上的策略引导强化学习方法应用于在线跟车策略学习系统，将驾驶过程建模为马尔科夫决策过程；首先是状态设计，跟车模式下，状态为：

其中，v_h为本车车速；Δv为相对车速；Δd为相对距离；I_L为前车驾驶意图；TH＝Δx/v_h为车头时距；ΔTH＝TH_tar-TH为期望时距与当前时距之差；特别的，在非跟车状态下，TH＝TH_tar+c(v_set-v_h)；c＝0.1为一系统设定常数；动作量为车轮处力矩，回报为：

其中，v_ref为期望速度；v_h为本车车速；Δx为相对距离；Δx_cra碰撞发生时的距离；TH＝Δx/v_h为车头时距；TH_max为最大跟车时距；同时将问题设定为车速跟踪问题，当前时刻的期望速度v_ref由均上一时刻的状态量决定，可表示为：

其中，Δx为上一时刻相对距离；d₀为安全距离；ΔT＝Δt*n,Δt为系统的控制周期；n＝10 为一常数；s_l＝(v_l'+v_l)/2*ΔT；s_l为前方车辆在系统的控制周期内行驶的距离；v_l',v_l为前方车辆在当前及上一时刻的速度；v_h为上一时刻本车车速；TH_tar为当前时刻期望跟车时距； h∈(0,1)为一系统固定参数；

在算法中，归一化后的评价信号d可表示为

其中，m为较大的常数值，取m＝100；归一化后的k时刻的本车车速y_vh(k)和参考车速 y_ref(k)，评价信号d的上下界点

y _vh(k)可分别表示为：

每个搜索方向的基准d_base可由下式计算得到：

d_base＝v_h(k)-v_h(k-1), (17)

其中，v_h(k)和v_h(k-1)分别为两相邻时刻k,k-1的本车车速值，v_ref(k)和v_ref(k-1)分别为两相邻时刻k,k-1的参考车速值；同时使用神经网络表示策略网络和状态值函数网络，所涉及的神经网络激活函数在输入层和输出层均选取双曲正切函数，更新过程采用神经网络训练时的梯度下降法。

所述步骤四的具体方法如下：

车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证控制精度；由动作量T_w车轮处期望力矩根据逆向动力学模型计算发动机力矩 T_e或制动轮缸压力P_wc作为前馈量，同时使用PID进行反馈控制；内层对发动机力矩T_e，外层对车轮处力矩T_w进行跟踪控制；

车辆的纵向动力学模型可以表示为；

其中，M为车辆质量；a为纵向加速度，T_e为发动机力矩；i_t为动力传动系统总传动比； η_t为动力传动系统总效率；T_b为制动总力矩；F_r,为行驶阻力，包含滚动阻力，空气阻力，加速阻力之和；R为车轮半径；进一步地，逆向纵向动力学模型可表示为：

其中，T_w为车轮处力矩；T_e为发动机力矩；i_t为动力传动系统总传动比；η_t为动力传动系统总效率；T_b为制动总力矩；P_wc为前后轮制动压力；K_EF,K_ER分别为前后轮等效制动效能因素；n_f＝n_r＝2为前后轮个数。

本发明的有益效果为：

1.本发明使用基于规则方法的模式切换，建立可连续学习的在线学习系统；

2.本发明提出策略引导强化学习方法，针对连续状态空间及连续动作空间中的策略梯度方法的效率及稳定性低的弱点，对Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性。

3.本发明将策略引导强化学习方法与在线学习系统结合，应用无人驾驶车辆的纵向速度控制问题中，验证了此种学习方法的高效率及稳定性，及其在驾驶环境变化环境中，如坡度变化，的控制方法有效性。

附图说明

图1为模式切换规则流程图；

图2为Actor-Critic框架结构图；

图3为车辆执行控制框图；

图4为本发明的系统结构框图；

图5为本发明的系统的总体流程示意图；

图6a为道路坡度常值变化曲线图；

图6b为道路坡度如图6a常值变化时，学习系统学习与测试时，前车车速与本车车速对比图；

图6c为道路坡度如图6a常值变化时，学习系统学习与测试时，期望时距与实际时距对比图；

图7a为道路坡度正弦变化曲线图；

图7b为道路坡度如图7a正弦变化时，学习系统学习与测试时，前车车速与本车车速对比图；

图7c为道路坡度如图7a正弦变化时，学习系统学习与测试时，期望时距与实际时距对比图。

具体实施方式

为了使得具备自适应巡航系统的车辆，在道路环境多变的驾驶过程中，如不同路段的道路坡度不同，或道路附着不同，同样具备较好的适应性。由于变化的环境在系统设计阶段未知，难以建立模型，本发明采用基于策略梯度强化学习方法，针对车辆系统控制问题的需求及要求设计了一种可在线学习的自适应巡航控制系统，以有效提高系统对不同环境的适应能力，在不同环境下得到一致的控制性能。在本问题的框架下，由于状态及动作空间连续，使用无模型的学习方法，存在样本效率低、学习过程稳定性差的问题。为了更有效的进行学习，本发明进一步地对学习框架进行改进，以提高学习算法的效率及稳定性，使得在实际问题中，车辆可以快速地适应变化的环境。

一种基于策略梯度在线学习方法设计的巡航控制系统包含多个子模块，其结构框图如图 4所示，包括智能感知信号处理模块A、模式切换模块B、学习模块C和车辆执行控制模块D；

其中，所述智能感知信号处理模块A，用于获得当前车辆和前方车辆行驶状态信息并进行信号处理；借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆，并得到车辆控制算法所需的当前车辆和前方车辆行驶状态信息，并且根据前车车速通过计算得到加速状态。

所述模式切换模块B，用于对学习系统中不同模式进行切换，基于规则方法设计模式切换策略；不同模式包括启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式。

所述学习模块C，用于学习跟车策略并根据环境进行在线更新；不同的模式具有不同的功能并使用不同控制方法，其中跟车学习模式，非跟车模式，测试模式建立在强化学习系统框架下，作用分别为有前车情况下在线学习，无前车情况下速度控制，测试学习效果。特别地，在跟车学习模式下，使用基于强化学习中的策略梯度方法在线学习跟车行为。启停模式与恢复模式使用比例-积分-微分PID控制器进行控制，以保证系统功能的完备性并可执行连续学习。

所述执行控制模块D用于对实际控制量进行跟踪控制，采用双层前馈加反馈PID控制器实现；依据车辆纵向动力学模型反推逆向模型，计算实际可执行于车辆子控制系统的控制量，并采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证跟踪控制精度。

在此基础上，图5给出了本发明的整体技术方案流程图，具体实施过程为：

如图5所示，智能感知及信号处理模块A，借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆，并得到前方车辆的车速及与本车的相对距离，以及当前车辆的车速，发动机力矩，档位信息。并且根据前车车速通过二次滤波得到前车的加速状态，得到离散值-1，0，1分别代表减速、匀速、加速。模式切换模块B中计算模式切换策略中条件C1-C12的控制信号，通过设计的规则算法计算学习系统的当前模式，如启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式。由于学习跟车模块C中不同的模式具有不同的功能并使用不同控制方法，因此其包含两个子模块分别对应强化学习控制方法(模块C(a)) 及PID控制方法(模块C(b))。此模块工作时，根据模式切换模块B输出的模式切换至对应模块下的控制方法。若使用强化学习控制方法，模块C(a)计算算法需输入的状态量，依据神经网络的输出进行控制。若使用PID控制方法，模块C(b)根据反馈误差进行控制。学习跟车模块C最终输出作用于车辆执行模块的控制量，即车轮处期望力矩，由于此控制量不能直接作用于车辆执行器，因此车辆执行控制模块D依据车辆纵向动力学模型反推逆向模型，计算实际可执行于车辆子控制系统的控制量，并采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证跟踪控制精度。

一种基于策略梯度在线学习方法设计的巡航控制方法具体工作过程如下:

步骤一、在智能感知信号处理模块A中，通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号，位置，速度信息，以及本车的运动状态，如车速，发动机力矩信息。同时，根据前车车速使用二次均值滤波得到前车的加速状态，作为后续控制算法的状态输入。

步骤二、模式切换模块B包含的模式有启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式，属于上层控制器中不同模式的切换。在此模块中使用基于规则方法设计模式切换策略，其中可用于切换的具体条件如下：如图1所示，

C1:是否满足算法控制车辆车速条件。车速降低至低于15km/h则不满足本算法控制条件(C1＝0)，直到车速增加至超过20km/h重新满足本算法控制条件(C1＝1)；

C3:是否满足自适应巡航条件。既前车车速与当前车辆设定车速关系，若前车车速高于本车设定车速则不满足跟车条件(C3＝0)，否则C3＝1；

C4:是否满足学习条件。即当前车辆与前车的距离及速度关系是否适合进行跟车学习，不满足跟车学习(C4＝0)的条件有：车头时距太小，或前车距离高于最远跟车距离，否则 C4＝1；

C5:当前车辆设定状态。分为两种，学习状态(C5＝1)及测试状态(C5＝0)；

切换简图如图1所示，决策信号C1-C5具体值可选取为0和1，即0为不满足该条件，1为满足该条件。切换规则可描述为：当本车车速低于15km/h，车辆进入启停模式，当车辆速度重新高于20km/h，车辆进入自适应巡航系统可开启状态；当前方无可跟随车辆，或前方车辆车速高于本车驾驶员设定车速时，车辆进入非跟车模式；否则本车进入可跟车学习状态，当前方目标车辆与本车的相对距离不满足学习条件，则直接进入恢复模式；否则本车处于可在线学习状态；若本车设定学习状态，则强化学习模块开始学习；否则，进入测试模块开始测试当前跟车驾驶策略。

步骤三、在学习跟车模块C中，通过不同的模式间的切换策略，构建了一个可连续学习的在线跟车学习模块，并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法，其中启停模式与恢复模式使用比例-积分-微分PID控制器进行控制。而最重要的是跟车学习模式，在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为。测试模式应用强化学习学到的策略验证学习效果；非跟车模式应用于无前车的情况，直接使用强化学习方法对本车进行速度控制；以上三种模式均建立在强化学习系统框架下。在连续状态空间及连续动作空间中基于强化学习中的策略梯度方法及其中常用的Actor-Critic框架进行在线学习；为了进一步提高系统安全性，针对此类算法的效率及稳定性低的弱点，近一步的对 Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性，这种方法称为策略引导强化学习方法；具体方法如下：如图2所示：

3.1)策略引导强化学习方法：针对连续状态及动作的强化学习算法的效率及稳定性低的弱点，在Actor-Critic框架下，对Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性；基于状态s，Actor神经网络输出采取动作a，Critic神经网络基于动作执行前后的状态转移(s→s')估计状态值函数，并根据回报计算TD-error进行评价用于更新；动作网络的更新公式可表示为：

其中，θ为动作网络参数；α为学习率；

和

分别为Critic网络在状态转移后s'以及前s估计的状态值函数；ω为动作网络参数；多步估计时，δ_TD(t)可表示为

其中，r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号；

和

其中s为当前状态，a为选择的动作，θ为动作网络参数，μ(s；θ）为当前状态下动作网络的输出值，为动作搜索的均值，σ(s)为动作搜索的标准差；因此，式(1)进一步改写为：

其中，θ为动作网络参数，α为学习率，δ为估计误差，sign(δ)和|δ|分别为其符号及大小， μ(s；θ）为当前状态下动作网络的输出值，

为对动作网络输出层函数的求导，σ(s)为动作搜索的标准差，a为选择的动作；

其中，m为较大的常数值，这里取m＝100；

y分别为归一化的上下边界，分别取值为max(y′*,1),min(y′*,1)；使用评价信号d可不基于模型对搜索方向进行评价；在此评价信号的基础上，在连续学习过程中，上一时刻动作的搜索方向及评价信号被用于指导下一时刻的动作搜索，即在每一个批训练集内，每个时刻的搜索方向，在没有好的指导方向时，采用随机的搜索方向；当有差的搜索方向时，采用与其相反的搜索方向；当有好的搜索方向时，采用与其相同的搜索方向；同时在此批训练集内，定义每个搜索方向的基准d_base，记录与其搜索方向相反的待评价状态变化值；假定在批训练集内，学习环境变化不变，当前策略差时，两个搜索方向均无法得到正的评价信号d；此时，将当前搜索方向的基准d_base，即与当前搜索方向相反的待评价状态变化值，加入当前的状态变化；比较多步估计信号δ_TD(t)与评价信号d，若二者符号相同，则使用式(3)作为误差信号估计，否则使用评价信号进行更新；此种情况下，动作网络以及值函数网络的更新信号e_a，e_c可表示为：

具体计算过程如下：

步骤(2)：初始化环境；

并将多步估计信号

为Critic网络在状态s_t，s_t+1估计的状态值函数；

在算法中，归一化后的评价信号d可表示为

其中，其中，m与公式(7)中含义一致，为较大的常数值，取m＝100；归一化后的k 时刻的本车车速y_vh(k)和参考车速y_ref(k)，评价信号d的上下界点

y _vh(k)可分别表示为：

y _vh(k)＝min(1,y_ref(k)) (16)

每个搜索方向的基准d_base可由下式计算得到：

d_base＝v_h(k)-v_h(k-1), (17)

其中，v_h(k)和v_h(k-1)分别为两相邻时刻k,k-1的本车车速值，v_ref(k)和v_ref(k-1)分别为两相邻时刻k,k-1的参考车速值。同时使用神经网络表示策略网络和状态值函数网络，所涉及的神经网络激活函数在输入层和输出层均选取双曲正切函数，更新过程采用神经网络训练时的梯度下降法。

步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证控制精度。

参阅图3，车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证控制精度。控制框图如图所示。由动作量T_w车轮处期望力矩根据逆向动力学模型计算发动机力矩T_e或制动轮缸压力P_wc作为前馈量，同时使用PID进行反馈控制。内层对发动机力矩T_e，外层对车轮处力矩T_w进行跟踪控制。

车辆的纵向动力学模型可以表示为；

其中，M为车辆质量；a为纵向加速度，T_e为发动机力矩；i_t为动力传动系统总传动比；η_t为动力传动系统总效率；T_b为制动总力矩；R为车轮半径；F_r,为行驶阻力，包含滚动阻力，空气阻力，加速阻力之和；进一步地，逆向纵向动力学模型可表示为：

其中，T_e为发动机力矩；i_t为动力传动系统总传动比；η_t为动力传动系统总效率；T_b为制动总力矩；P_wc为前后轮制动压力；K_EF,K_ER分别为前后轮等效制动效能因素；n_f＝n_r＝2为前后轮个数。

最后，我们在无道路坡度的环境下对自适应巡航控制系统的控制策略进行训练，训练完成后，在道路坡度为常数值正负5°以及道路坡度以幅值5°正弦变化的环境下，使用学习模式及测试模式分别进行试验。图6a-6c和7a-7c分别为两种情况下，使用学习模式及测试模式的跟车效果对比图，可以看到具有在线学习能力的自适应巡航控制系统对变化的环境具有更好的适应能力。

Claims

1.一种基于策略梯度在线学习算法的巡航控制系统的设计方法，巡航控制系统包括智能感知信号处理模块(A)、模式切换模块(B)、学习模块(C)和车辆执行控制模块(D)；所述智能感知信号处理模块(A)，用于获得当前车辆和前方车辆行驶状态信息并进行信号处理；所述模式切换模块(B)，用于对学习系统中不同模式进行切换，基于规则方法设计模式切换策略；所述学习模块(C)，用于学习跟车策略并根据环境进行在线更新；所述车辆执行控制模块(D)，用于对实际控制量进行跟踪控制，采用双层前馈加反馈PID控制器实现；所述智能感知信号处理模块(A)与模式切换模块(B)、学习跟车模块(C)以及执行控制模块D相连；所述模式切换模块(B)与学习跟车模块(C)相连；所述学习跟车模块(C)与执行控制模块(D)相连；其特征在于，该方法包括以下步骤：

步骤一、通过智能感知信号处理模块(A)获得车辆控制算法所需的状态信息，包括：借助车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆，并得到当前车辆和前方车辆行驶状态信息；并且根据前车车速通过计算得到加速状态；

步骤二、通过模式切换模块(B)切换学习系统中的不同模式，基于规则方法设计模式切换策略，用于切换上层控制器中的不同控制模式，其中这些控制模式有：启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式；

步骤三、通过学习跟车模块(C)针对不同的模式使用不同控制方法，构建一个可连续学习的在线跟车学习模块，其中最重要的是跟车学习模式，在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为；测试模式应用强化学习学到的策略验证学习效果；非跟车模式应用于无前车的情况，直接使用强化学习方法对本车进行速度控制；以上三种模式均建立在强化学习系统框架下；启停模式与恢复模式使用比例-积分-微分PID控制器进行控制；

步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证跟踪控制精度。

2.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法，其特征在于，所述步骤一的具体方法如下：

在智能感知信号处理模块(A)中，通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号，位置，速度信息，以及本车的运动状态；

3.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法，其特征在于，所述步骤二的具体方法如下：

模式切换模块(B)针对的模式有启停模式，非跟车模式，跟车学习模式，测试模式，恢复模式；在上层控制器中不同模式的切换中，使用基于规则方法设计模式切换策略，其中用于切换的具体条件如下：

C4:是否满足学习条件；即当前车辆与前车的距离及速度关系是否适合进行跟车学习，不满足跟车学习即C4＝0的条件有：车头时距小于1或前车距离高于最远跟车距离，否则C4＝1；

4.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法，其特征在于，所述步骤三的具体方法如下：

在学习跟车模块(C)中，通过不同的模式间的切换策略，构建了一个可连续学习的在线跟车学习模块，并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法，其中，启停模式与恢复模式使用比例-积分-微分PID控制器进行控制；而最重要的是跟车学习模式，在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为；测试模式应用强化学习学到的策略验证学习效果；非跟车模式应用于无前车的情况，直接使用强化学习方法对本车进行速度控制；跟车学习模式、测试模式和非跟车模式均建立在强化学习系统框架下；在连续状态空间及连续动作空间中基于强化学习中的策略梯度方法及Actor-Critic框架进行在线学习；为了进一步提高系统安全性，针对此类算法的效率及稳定性低的弱点，近一步的对Actor中的策略搜索策略及Critic中的策略评价方法进行改进，减少算法对于动作策略及值函数初值的敏感及依赖性，这种方法称为策略引导强化学习方法；具体方法如下：

其中，θ为动作网络参数；α为学习率；

和

分别为Critic网络在状态转移后s'以及前s估计的状态值函数；ω为动作网络参数；多步(t步)估计时，δ_TD(t)可表示为

其中，r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号；

和

其中，s为当前状态，a为选择的动作，θ为动作网络参数，μ(s；θ)为当前状态下动作网络的输出值，为动作搜索的均值，σ(s)为动作搜索的标准差；因此，式(1)进一步改写为：

对于t时刻，状态s对应的待评价状态分量的实际值与期望值分别为x,x*，及t+1时刻的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*；因此，归一化后的新项y,y*,y',y'*可以表示为

其中，m为较大的常数值，这里取m＝100；

具体计算过程如下：

步骤(2)：初始化环境；

并将多步估计信号

为Critic网络在状态s_t,s_t+1估计的状态值函数；

其中，v_h为本车车速；△v为相对车速；△d为相对距离；I_L为前车驾驶意图；TH＝△x/v_h为车头时距；△TH＝TH_tar-TH为期望时距与当前时距之差；特别的，在非跟车状态下，TH＝TH_tar+c(v_set-v_h)；c＝0.1为一系统设定常数；动作量为车轮处力矩，回报为：

其中，v_ref为期望速度；v_h为本车车速；△x为相对距离；△x_cra碰撞发生时的距离；TH＝△x/v_h为车头时距；TH_max为最大跟车时距；同时将问题设定为车速跟踪问题，当前时刻的期望速度v_ref由均上一时刻的状态量决定，可表示为：

其中，△x为上一时刻相对距离；d₀为安全距离；△T＝△t*n,△t为系统的控制周期；n＝10为一常数；s_l＝(v_l'+v_l)/2*△T；s_l为前方车辆在系统的控制周期内行驶的距离；v_l',v_l为前方车辆在当前及上一时刻的速度；v_h为上一时刻本车车速；TH_tar为当前时刻期望跟车时距；h∈(0,1)为一系统固定参数；

在算法中，归一化后的评价信号d可表示为

其中，m为较大的常数值，取m＝100；归一化后的k时刻的本车车速y_vh(k)和参考车速y_ref(k)，评价信号d的上下界点

y _vh(k)可分别表示为：

y _vh(k)＝min(1,y_ref(k)) (16)

每个搜索方向的基准d_base可由下式计算得到：

d_base＝v_h(k)-v_h(k-1), (17)

5.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法，其特征在于，所述步骤四的具体方法如下：

车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行，保证控制精度；由动作量T_w车轮处期望力矩根据逆向动力学模型计算发动机力矩T_e或制动轮缸压力P_wc作为前馈量，同时使用PID进行反馈控制；内层对发动机力矩T_e，外层对车轮处力矩T_w进行跟踪控制；

车辆的纵向动力学模型可以表示为；

其中，M为车辆质量；a为纵向加速度，T_e为发动机力矩；i_t为动力传动系统总传动比；η_t为动力传动系统总效率；T_b为制动总力矩；F_r,为行驶阻力，包含滚动阻力，空气阻力，加速阻力之和；R为车轮半径；进一步地，逆向纵向动力学模型可表示为：