CN110568760A

CN110568760A - 适用于换道及车道保持的参数化学习决策控制系统及方法

Info

Publication number: CN110568760A
Application number: CN201910952119.1A
Authority: CN
Inventors: 高炳钊; 张羽翔; 吕吉东; 陈虹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2019-12-13
Anticipated expiration: 2039-10-08
Also published as: CN110568760B

Abstract

本发明属于汽车高级辅助驾驶及无人驾驶系统设计技术领域，具体的说是一种适用于换道及车道保持行为的参数化学习决策控制系统及方法。本发明基于参数化决策框架，设计了适用于换道及车道保持行为的参数化学习控制系统，其包括车辆在换道及车道保持场景下基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器，该系统适用于高级别自动驾驶车辆，通过在线学习有效提高系统对不同驾驶员不同驾驶行为特性的适应能力，进而使系统获得更优驾驶性能的条件下亦保证安全。

Description

适用于换道及车道保持的参数化学习决策控制系统及方法

技术领域

本发明属于汽车高级辅助驾驶及无人驾驶系统设计技术领域，具体的说是一种适用于换道及车道保持行为的参数化学习决策控制系统及方法。

背景技术

随着智能驾驶辅助技术以及无人驾驶技术的不断发展，不同形式的运动控制系统不断的被提出，并得到应用。例如，在运动轨迹规划与控制问题中，为使系统具备更多的功能性以及适应于各种场景，在车辆分层的控制框架下，集成的底层运动控制器需要可执行多种驾驶任务及场景，如换道，车道保持等。同时各个执行子系统，如驱动，制动，转向系统具备协调控制能力，并能实现不同任务间的平稳切换。其中，现有技术中提出的参数化的决策架构可以满足以上要求，即一个基于参数决策框架的轨迹规划控制方法，其基于模型预测控制方法，并在多种场景下集成了轨迹规划与运动控制。此种轨迹规划与控制方法因其用一种简单的形式，并可适用于多种驾驶任务及工况而具有优势发展潜力。在此种轨迹规划控制框架下，在决策控制层将类人的驾驶决策描述为与轨迹特征密切相关的若干决策参数。进一步地，对于不同决策参数的求解，需要适应于多变的驾驶工况，且不断适应于真实驾驶场景中真实人类驾驶员的行为及反馈行为，这些使用基于模型的控制方法，很难达到不断学习的效果。因此，对于决策层控制算法的设计，可以使用学习算法中在序列控制及连续学习中具备优势的强化学习算法。而对于城市工况，或高速公路工况，最常见的是换道及车道保持行为。其决策参数特征关系简单，具有一致性。

发明内容

本发明提出了一种适用于换道及车道保持行为的参数化学习决策控制系统及方法，包含基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器，该系统适用于高级别自动驾驶车辆，目标是通过在线学习有效提高系统对不同驾驶员不同驾驶行为特性的适应能力，进而使系统获得更优驾驶性能的条件下亦保证安全，解决了现有技术中存在的上述不足。

本发明技术方案结合附图说明如下：

一种适用于换道及车道保持的参数化学习决策控制系统，其特征在于，该系统包括感知信号收集及数据存储模块A、学习决策参数模块B、轨迹规划及运动控制模块C和执行跟踪模块D；

所述感知信号收集及数据存储模块A，用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理，并收集数据用于后续决策参数的学习训练；

所述学习决策参数模块B，用于对收集决策数据进行学习，当系统收集的数据量达到一定阈值或得到一定程度的更新，系统会不断进行学习，基于强化学习方法，学习合适的决策参数值；

所述轨迹规划及运动控制模块C，用于车辆规划的实时轨迹规划及运动控制，基于模型预测控制方法，使用学习决策参数模块B输出的具体决策参数值大小及感知信号收集及数据存储模块A判断的当前驾驶道路类型，确定控制器形式，并滚动优化轨迹；

所述执行跟踪模块D，用于对算法输出的控制量进行跟踪控制，采用PID控制器实现，保证控制精度；

所述感知信号收集及数据存储模块A与学习决策参数模块B、轨迹规划及运动控制模块C以及执行跟踪模块D相连；所述学习决策参数模块B与轨迹规划及运动控制模块C相连；所述轨迹规划及运动控制模块C与执行跟踪模块D相连。

一种适用于换道及车道保持的参数化学习决策控制系统的方法，该方法包括以下步骤：

步骤一、通过感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道，速度，加速度，以及相对于本车以其车道为基准的相对距离，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图即保持或者换道，以及本车的车道，速度，并将信息存储于模块中；

步骤二、通过学习决策参数模块B学习合适的决策参数值，即行为终端侧向偏移，行为时间，加减速行为的具体数值，将行为时间，加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间；基于核函数的最小二乘策略迭代强化学习方法，进行状态设计，以及回报设计，当系统收集的数据量达到一定阈值，使用此强化学习算法进行学习；

步骤三、通过轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解进行轨迹规划及运动控制，使用包含车辆动力学方程，具有六维状态向量的状态空间方程，并建立具有终端状态约束的约束方程，使得动作执行的过程可以配合不同道路类型；换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移，行为时间，加减速行为，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；对于直道与弯道两种不同的道路条件，相应的变换两种不同的终端状态等式约束条件，即直道条件下对车辆的终端侧向偏移，航向角，侧向速度，横摆角速度进行约束，以及弯道条件下，仅对车辆的终端侧向位移以及航向角进行约束；

步骤四、通过执行跟踪模块D对算法输出的控制量进行跟踪控制，采用PID控制器实现，保证控制精度。

所述步骤一的具体方法如下：

在感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的状态信息，并且对周围车辆的不同位置进行标号，并筛选对应位置处的目标车辆；如果相应位置有目标车辆，则对应位置的激活标志信号P_N_flag＝1，否则P_N_flag＝0；当位置N处的激活标志信号P_N_flag＝1时，对应车辆的车道L_N，速度v_N，加速度a_N，以及相对于本车以其车道为基准的相对距离d_N，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图I_N，以及本车的车道L_h，速度v_h被记录；其中，对于驾驶意图I_N的计算方法为

其中，I_N的值为-1,0,1时分别表示此环境车有向右换道，车道保持，向左换道的意图；Flag_light为转向灯信号，其值为-1,0,1时分别表示此环境车有右，无，左的转向信号灯亮起；Δd为当前环境车相对于其所处车道垂直于车道线方向的侧向距离；d_lane为相邻两车道间的距离；最终将这些信息存储于模块中。

所述步骤二的具体方法如下：

学习决策参数模块B基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值；将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程，包含状态设计，动作设计，回报设计；根据设计的马尔可夫决策过程模型以及所记录的数据，当系统收集的数据量达到一定阈值，使用基于核函数的最小二乘策略迭代强化学习方法进行学习；

2.1)马尔可夫决策过程模型的建立；

①状态设计；

对于环境车与本车的相对位置，以及对于环境车的位置的编号，为了完整的表述环境中的车流状态，位置N处的车辆的状态被考虑，分别为当前车道L_N，速度v_N，加速度a_N，以及相对于本车以其车道为基准的相对距离d_N，并通过其相对于其车道中心线的侧向偏移Δd或转向灯信息Flag_light得到环境车的驾驶意图I_N，其中下标N代表了位置N处对应的车辆；状态向量还包含本车的状态，本车的车道L_h，速度v_h；这些状态量的数值均在感知信号收集及数据存储模块A中被读取，计算并被储存；因此，状态向量s可以表示为

当相应位置无环境车辆时，对应的状态向量值设为0；

②动作设计；

在本问题的框架下，换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移T_y，行为时间t_f，加减速行为a_tar；这些决策参数可直接被应用于轨迹规划及运动控制模块C中的轨迹规划与运动控制控制器，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；因此，动作向量a可以表示为

a＝(T_y，t_f，a_tar)^T， (3)

其中，行为终端侧向偏移T_y∈{-d_lane，0，d_lane}；d_lane为相邻两车道间的距离，分别对应向左换道，车道保持，向右换道；在动作空间中，将行为时间t_f，加减速行为a_tar这两个连续变量在取值范围空间内离散得到离散的动作空间；因此行为时间t_f的取值可表示为

加减速行为a_tar∈{-1.5，-0.5，0，0.5，1.5}，这些参数化的决策用于描述人类的驾驶行为；

③回报设计；

在回报函数设计中，分别考虑安全性因素r_s，快速性因素r_r，平顺性因素r_c，分别表示为：

r_r＝β₁a_tar (6)

r_r＝r_r-0.5若t_f＝4， (7)

r_c＝-β₁|a_tar| (8)

r_c＝r_c-0.5若t_f＝2， (9)

其中，d_N是位置N处车辆相对于本车以其车道为基准的相对距离，d_c是碰撞距离，TH＝d_N/v_h是车头时距，TH_exp是期望的车头时距，L_N是位置N处车辆车道，L_h为本车车道，β₁，β₂是权重系数，t_f为行为时间，a_tar为加减速行为；因此，总的回报可用下式计算得到

r＝r_s+r_r+r_c+r_a， (10)

其中，r_a为轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报；

2.2)基于核函数的最小二乘策略迭代算法：在连续的状态空间中，使用函数逼近方法表征状态-动作值函数；使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量；首先，通过稀疏化过程得到核字典；依据状态对m＝(s，a)中的状态向量s和动作向量a设计特征向量，可以表示为φ(m)＝[s^T，a^T]^T，选择径向基函数作为核函数，可以表示为：

其中，<·,·>表示两个向量的内积，φ(m_i),φ(m_j)分别是数据集中第i,j个状态对，k为权值向量，用于归一化不同范围的状态向量并区别动作向量与状态向量；样本集表示为M＝{m₁,m₂,...,m_p}，特征向量集为Φ＝{φ(m₁),φ(m₂),...,φ(m_p)}；基于特征向量集进行筛选，若当前特征向量与字典中的特征向量的线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近；

筛选过程描述为：假设遍历q个样本后，核字典D_t-1有t-1(1＜t≤p)个特征向量；对于第q+1个样本，判断其是否应该加入核字典时，需要计算：

其中，λ＝[λ₁,λ₂,...,λ_t-1]为权值向量，式(12)的解为：

其中，λ＝[λ₁,λ₂,...,λ_t-1]为权值向量，[W_t-1]_i,j＝κ(m_i,m_j)为t-1×t-1维矩阵，w_(q+1)(q+1)＝κ(m_q+1,m_q+1)为当前特征向量m_q+1与自身的内积值，w_t-1(m_q+1)＝[κ(m₁,m_q+1),κ(m₂,m_q+1),...,κ(m_t-1,m_q+1)]^T为字典中已有特征向量与当前特征向量s_t的内积t-1维列向量；如果ξ＞μ，则该特征向量被加入核词典中，反之，则不加入；直到测试完所有的样本；

得到核字典后，使用核词典中的特征向量线性逼近状态-动作值函数；状态-动作值函数表示为：

其中，为状态m_i的状态-动作值函数估计值，α＝(α₁,α₂,...,α_t)是权重向量；φ(m_j)为状态对m_j的特征向量；对第ii个样本对m_ii以及第ii+1个样本对m_ii+1，增量式迭代更新方程为：

其中，w_t(m_ii)＝[κ(m₁,m_ii),κ(m₂,m_ii),...,κ(m_t,m_ii)]^T，w_t(m_ii+1)＝[κ(m₁,m_ii+1),κ(m₂,m_ii+1),...,κ(m_t,m_ii+1)]^T分别由m_ii,m_ii+1与字典中的特征向量计算得到；A_ii-1,A_ii为t*t维矩阵，b_ii-1,b_ii为t维列向量，分别对应前后两次迭代更新时矩阵A和向量b的值；α_ii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量；

基于状态-动作值函数的估计值对策略改进，更新后的策略可以表示为：

迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同，则算法收敛结束；

具体计算过程如下：

步骤(1)：得到数据集M＝{m₁,m₂,...,m_p}，核函数κ，并初始化空核字典D₀，阈值μ；

步骤(2)：循环i＝1:p,计算式(13)；如果ξ＞μ，将当前特征向量加入字典；否则，i＝i+1；

步骤(3)：得到核字典，进行策略迭代。初始化零矩阵A，零向量b，零权值向量α；

步骤(4)：多次循环i＝1:p,计算式(15)；直到数据集策略与当前网络策略一致；

步骤(5)：输出权值向量α。

所述步骤三的具体方法如下：

3.1)非线性轨迹规划及运动方程的建立：自行车车辆动力学模型可表示为：

其中，M是车辆质量；v_x是纵向车速；v_y为车辆侧向速度；w_r是车辆横摆角速度；F_yf,F_yr分别车辆前轮侧向力和后轮侧向力；I_z为车辆沿z轴的转动惯量；l_f,l_r为前后轴轴距；由于执行跟踪模块D中对车辆的纵向速度以及转向运动进行跟踪控制，保证同时这里将控制量简化为前轮转角δ_f和纵向速度数值变化率a；轮胎侧向力F_yf,F_yr可表示为：

其中，δ_f为前轮转角；C_r,C_f分别为前后轮侧偏刚度；同时，根据车辆的运动关系有为车辆的航向角；考虑车辆的运动在全局坐标系下的运动方程，非线性的车辆运动空间方程建立为

其中，状态变量为控制变量为u＝[a,δ_f]；F_yf,F_yr可由式(18)计算得到；X,Y是车辆在全局坐标系下的位置；

3.2)优化轨迹规划器的建立：首先是终端状态等式约束条件，其与不同的道路类型有关；对于一个任务，在预测时域终端，应满足一定的终端状态条件，才能保证任务的完成；对于直路环境中车道保持以及换道任务，任务完成的条件是在终端时刻横摆角速度，侧向速度回到0，航向角与当前车道的中心线一致，位置处于当前车道的车道中心线上；而弯道环境中，可放松对于横摆角速度，侧向速度回到0的等式约束；因此，直路环境中的终端等式约束为

其中，w_r(t_f),v_y(t_f),Y(t_f)分别为预测时域终端时刻横摆角速度，侧向速度，航向角，横向位移；y_l,f为期望的终端横向位移；车道保持时y_l,f＝0；换道时，y_l,f＝d_lane，d_lane为相邻车道间的侧向距离；弯道环境中的终端等式约束为

其中，为与车辆当前位置垂直距离最近一点目标车道中心线的航向角；P(t_f)为预测时域终端时刻车辆位置；P_lane为与车辆当前位置垂直距离最近一点目标车道中心线的位置；同时，控制量应满足不等式约束

其中，下标min，max分别代表相应变量的最小值和最大值；

目标函数考虑预测时域内各控制量前轮转角δ_f和纵向速度数值变化率的变化量Δδ_f和Δa以及纵向速度数值变化率a与期望加减速行为a_tar偏差的积分型性能指标，控制器的目标函数表示为：

其中为权重系数；

因此优化问题可建立为

其中，P(t_f)∈R_ac，P(t_f)∈R_cd预测时域终端时刻车辆位置在直道和弯道；

3.3)轨迹规划及运动控制模块执行驾驶决策回报计算：将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块(C)，轨迹规划及运动控制模块(C)进行轨迹规划后返回的回报r_a，其计算方程为

本发明的有益效果为：

1.本发明设计了适用于换道及车道保持行为的参数化学习控制系统，在不同的驾驶任务及环境中使用了一致的驾驶决策与轨迹规划形式；

2.本发明使用了基于强化学习算法设计的学习决策方法，决策同时包含行为终端侧向偏移，行为时间，加减速行为三个变量。

3.本发明使用模型预测控制方法，对决策参数值在线优化求解进行轨迹规划及运动控制，不同的终端状态约束适应于不同的驾驶任务及道路条件。

附图说明

图1为本车与环境车辆位置编号示意图；

图2为本发明的系统结构框图；

图3为本发明的系统的总体流程示意图；

图4为场景1下，本车(H)及环境车辆(N1-N8)的车道变化图；

图5为场景2下，本车(H)及环境车辆(N1-N8)的车道变化图；

具体实施方式

由于真实驾驶环境中驾驶员的驾驶行为特性在系统设计阶段未知，难以建立准确模型，系统需要通过不断学习提高系统整体性能。为了提高系统对不同驾驶员不同驾驶行为特性的适应能力，进而使系统获得更优驾驶性能的条件下亦保证安全，本发明基于参数化决策框架，设计了适用于换道及车道保持行为的参数化学习控制系统，其包括车辆在换道及车道保持场景下基于强化学习算法设计的学习决策方法以及其此类场景下对应的参数化后可适应于直道以及弯道道路的轨迹规划控制器。

一种适用于换道及车道保持行为的参数化学习决策控制系统，包含多个子模块，其结构框图如图2所示，主要包括：感知信号收集及数据存储模块A、学习决策参数模块B、轨迹规划及运动控制模块C和执行跟踪模块D，共同构成一个基于参数化决策框架，适用于换道及车道保持行为的参数化学习决策控制系统。其中感知信号收集及数据存储模块A，用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道，速度，加速度，以及相对于本车以其车道为基准的相对距离，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道)，以及本车的车道，速度，并收集数据用于后续决策参数的学习训练。学习决策参数模块B强化学习方法，学习合适的决策参数值。对于城市工况，或高速公路工况，最常见的是换道及车道保持行为。其决策参数特征关系简单，具有一致性，即行为终端侧向偏移，行为时间，加减速行为的具体数值。将行为时间，加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间。进而进行状态设计，以及回报设计。当系统收集的数据量达到一定阈值，使用基于核函数的最小二乘策略迭代强化学习算法进行学习。轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解，用于车辆规划的实时轨迹规划及运动控制。感知信号收集及数据存储模块A判断的当前驾驶道路类型；基于模型预测控制方法，滚动优化轨迹。建立具有六维状态向量的非线性状态空间方程，并建立具有终端状态约束的约束方程，使得动作执行的过程可以配合不同道路类型。学习决策参数模块B输出的具体决策参数值确定控制器形式，对于直道与弯道两种不同的道路条件，相应的变换两种不同的终端状态等式约束条件，即直道条件下对车辆的终端侧向偏移，航向角，侧向速度，横摆角速度进行约束，以及弯道条件下，仅对车辆的终端侧向位移以及航向角进行约束。行为终端侧向偏移，行为时间，加减速行为，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；执行跟踪模块D，用于对算法输出的控制量进行跟踪控制，采用PID控制器实现，保证控制精度。

在此基础上，图3给出了本发明的整体技术方案流程图，具体实施过程为：

如图3所示，整个系统的学习过程是存在于人类驾驶员驾驶或虚拟仿真环境中。人类驾驶员驾驶时，仅感知信号收集及数据存储模块A和学习决策参数模块B工作。虚拟仿真环境学习，或验证学习效果时，模块A-D同时工作。感知信号收集及数据存储模块A，借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道，速度，加速度，以及相对于本车以其车道为基准的相对距离，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道)，以及本车的车道，速度，并将信息存储于模块中。学习决策参数模块B中的样本值达到阈值(10³)或数据更新量大于20％后，根据设计的基于核函数的最小二乘策略迭代强化学习算法，对决策参数进行学习，并更新；否则继续采集人类驾驶或在仿真环境中使用随机策略搜索动作空间。轨迹规划及运动控制模块C根据学习决策参数模块B输出的决策参数数值在线优化求解进行轨迹规划及运动控制。得到控制量前轮转角δ_f和纵向速度数值变化率a，最终输出作用于执行跟踪模块D。由于需要保证车辆执行器对于控制量的控制精度，因此车辆执行控制模块D采用反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行。

一种适用于换道及车道保持行为的参数化学习决策控制方法，该方法包括以下步骤：

步骤一、通过感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道，速度，加速度，以及相对于本车以其车道为基准的相对距离，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图(保持或者换道)，以及本车的车道，速度，并将信息存储于模块中，具体方法如下：

在感知信号收集及数据存储模块A获得车辆控制算法所需的本车与环境车状态信息，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆状态信息。如图1所示，分别对不同位置进行如图所示的标号，并筛选对应位置处的目标车辆。如果相应位置有目标车辆，则对应位置的激活标志信号P_N_flag＝1，否则P_N_flag＝0。当位置N处的激活标志信号P_N_flag＝1时，对应车辆的车道L_N，速度v_N，加速度a_N，以及相对于本车以其车道为基准的相对距离d_N，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图I_N，以及本车的车道L_h，速度v_h被记录。其中对于驾驶意图I_N的计算方法为

其中，I_N的值为-1,0,1时分别表示此环境车有向右换道，车道保持，向左换道的意图，Flag_light为转向灯信号，其值为-1,0,1时分别表示此环境车有右，无，左的转向信号灯亮起，Δd为当前环境车相对于其所处车道垂直于车道线方向的侧向距离，d_lane为相邻两车道间的距离，最终将这些信息存储于模块中。

步骤二、通过学习决策参数模块B学习合适的决策参数值，即行为终端侧向偏移，行为时间，加减速行为的具体数值，将行为时间，加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间；基于核函数的最小二乘策略迭代强化学习方法，进行状态设计，以及回报设计，当系统收集的数据量达到一定阈值，使用此强化学习算法进行学习，具体方法如下：

学习决策参数模块B基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值。将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程，包含状态设计，动作设计，回报设计。根据设计的马尔可夫决策过程模型以及所记录的数据，当系统收集的数据量达到一定阈值，使用基于核函数的最小二乘策略迭代强化学习方法进行学习。

2.1)马尔可夫决策过程模型的建立；

①状态设计，根据图1中，对于环境车与本车的相对位置，以及对于环境车的位置的编号，为了完整的表述环境中的车流状态，位置N处的车辆的状态被考虑，分别为当前车道L_N，速度v_N，加速度a_N，以及相对于本车以其车道为基准的相对距离d_N，并通过其相对于其车道中心线的侧向偏移Δd或转向灯信息Flag_light得到环境车的驾驶意图I_N，其中下标N代表了位置N处对应的车辆。状态向量还包含本车的状态，本车的车道L_h，速度v_h。这些状态量的数值均在感知信号收集及数据存储模块A中被读取，计算并被储存。因此，状态向量s可以表示为

当相应位置无环境车辆时，对应的状态向量值设为0。

②动作设计，在本问题的框架下，换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移T_y，行为时间t_f，加减速行为a_tar。这些决策参数可直接被应用于轨迹规划及运动控制模块C中的轨迹规划与运动控制控制器，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项。因此，动作向量a可以表示为

a＝(T_y，t_f，a_tar)^T， (3)

其中，行为终端侧向偏移T_y∈{-d_lane，0，d_lane}，d_lane为相邻两车道间的距离，分别对应向左换道，车道保持，向右换道。在动作空间中，将行为时间t_f，加减速行为a_tar这两个连续变量在取值范围空间内离散得到离散的动作空间。因此行为时间t_f的取值可表示为

加减速行为a_tar∈{-1.5，-0.5，0，0.5，1.5}。这些参数化的决策可用于描述人类的驾驶行为，如表1所示。

表1参数化决策与人类决策类比举例

③回报设计。在回报函数设计中，分别考虑安全性因素r_s，快速性因素r_r，平顺性因素r_c，分别表示为：

r_r＝β_i a_tar (6)

r_r＝r_r-0.5若t_f＝4， (7)

r_c＝-β₁|a_tar| (8)

r_c＝r_c-0.5若t_f＝2， (9)

其中，d_N是位置N处车辆相对于本车以其车道为基准的相对距离，d_c是碰撞距离，TH＝d_N/v_h是车头时距，TH_exp是期望的车头时距，L_N是位置N处车辆车道，L_h为本车车道，β₁,β₂是权重系数，t_f为行为时间，a_tar为加减速行为。因此，总的回报可用下式计算得到

r＝r_s+r_r+r_c+r_a， (10)

这里我们将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块C，因此r_a为轨迹规划及运动控制模块C进行轨迹规划后返回的回报。其具体取值将在轨迹规划及运动控制模块C进一步说明。

2.2)基于核函数的最小二乘策略迭代算法：在连续的状态空间中，一般使用函数逼近方法表征状态-动作值函数；使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量；首先，通过稀疏化过程得到核字典。依据状态对m＝(s,a)中的状态向量s和动作向量a设计特征向量，可以表示为φ(m)＝[s^T,a^T]^T，选择径向基函数作为核函数，可以表示为：

其中，<·,·>表示两个向量的内积，φ(m_i),φ(m_j)分别是数据集中第i,j个状态对，k为权值向量，用于归一化不同范围的的状态向量并区别动作向量与状态向量。样本集可以表示为M＝{m₁,m₂,...,m_p}，特征向量集为Φ＝{φ(m₁),φ(m₂),...,φ(m_p)}；基于特征向量集进行筛选，若当前特征向量与字典中的特征向量的线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近。

筛选过程可以描述为：假设遍历q个样本后，核字典D_t-1有t-1(1＜t≤p)个特征向量。对于第q+1个样本，判断其是否应该加入核字典时，需要计算：

其中，λ＝[λ₁,λ₂,...,λ_t-1]为权值向量，式(12)的解为：

得到核字典后，使用核词典中的特征向量线性逼近状态-动作值函数。状态-动作值函数可以表示为：

基于状态-动作值函数的估计值对策略改进。更新后的策略可以表示为：

具体计算过程如下：

步骤(2)：循环i＝1:p,计算式(13)。如果ξ＞μ，将当前特征向量加入字典；否则，i＝i+1；

步骤(4)：多次循环i＝1:p,计算式(15)。直到数据集策略与当前网络策略一致；

步骤(5)：输出权值向量α。

步骤三、通过轨迹规划及运动控制模块(C)根据学习决策参数模块(B)输出的决策参数数值在线优化求解进行轨迹规划及运动控制，使用包含车辆动力学方程，具有六维状态向量的状态空间方程，并建立具有终端状态约束的约束方程，使得动作执行的过程可以配合不同道路类型；换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移，行为时间，加减速行为，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；对于直道与弯道两种不同的道路条件，相应的变换两种不同的终端状态等式约束条件，即直道条件下对车辆的终端侧向偏移，航向角，侧向速度，横摆角速度进行约束，以及弯道条件下，仅对车辆的终端侧向位移以及航向角进行约束；具体方法如下：

其中，M是车辆质量，v_x是纵向车速，v_y为车辆侧向速度，w_r是车辆横摆角速度，F_yf,F_yr分别车辆前轮侧向力和后轮侧向力，I_z为车辆沿z轴的转动惯量，l_f,l_r为前后轴轴距。由于执行跟踪模块D中可对车辆的纵向速度以及转向运动进行跟踪控制，保证同时这里将控制量简化为前轮转角δ_f和纵向速度数值变化率a。轮胎侧向力F_yf,F_yr可表示为：

其中，δ_f为前轮转角，C_r,C_f分别为前后轮侧偏刚度；同时，根据车辆的运动关系有为车辆的航向角。以及考虑车辆的运动在全局坐标系下的运动方程，非线性的车辆运动空间方程建立为

其中，状态变量为控制变量为u＝[a,δ_f]。F_yf,F_yr可由式(18)计算得到。X,Y是车辆在全局坐标系下的位置。

3.2)优化轨迹规划器的建立：首先是终端状态等式约束条件，其与不同的道路类型有关。其思想是，对于一个任务，在预测时域终端，应满足一定的终端状态条件，才能保证任务的完成。对于直路环境中车道保持以及换道任务，任务完成的条件是在终端时刻横摆角速度，侧向速度回到0，航向角与当前车道的中心线一致，位置处于当前车道的车道中心线上；而弯道环境中，可放松对于横摆角速度，侧向速度回到0的等式约束。因此，直路环境中的终端等式约束为

其中，ω_r(t_f),v_y(t_f),Y(t_f)分别为预测时域终端时刻横摆角速度，侧向速度，航向角，横向位移，y_l,f为期望的终端横向位移，车道保持时y_l,f＝0；换道时，y_l,f＝d_lane，d_lane为相邻车道间的侧向距离；弯道环境中的终端等式约束为

其中，为与车辆当前位置垂直距离最近一点目标车道中心线的航向角，P(t_f)预测时域终端时刻车辆位置，P_lane与车辆当前位置垂直距离最近一点目标车道中心线的位置。同时，控制量应满足不等式约束

其中，下标min，max分别代表相应变量的最小值和最大值；

目标函数考虑预测时域内各控制量前轮转角δ_f和纵向速度数值变化率的变化量Δδ_f和Δa以及纵向速度数值变化率a与期望加减速行为a_tar偏差的积分型性能指标，控制器的目标函数可以表示为：

其中，为权重系数。

因此优化问题可建立为

其中，P(t_f)∈R_ac，P(t_f)∈R_cd预测时域终端时刻车辆位置在直道和弯道。

3.3)轨迹规划及运动控制模块执行驾驶决策回报计算：本申请将强化学习中的转移函数变化为一个实际的轨迹规划及运动控制模块C，轨迹规划及运动控制模块C进行轨迹规划后返回的回报r_a，其计算方程为

最后，我们在学习后对驾驶策略进行了验证，如图4所示的驾驶场景1中，环境车N1在车道2保持行驶，环境车先在车道2行驶，后换入车道1，环境车沿车道3保持行驶；环境车由车道3换入车道4后又换入车道5最终保持行驶。此种场景下，本车自车道3先连续换道换入车道5后换入车道2最终换入车道1。

如图5所示的驾驶场景2中，环境车N3在车道2保持行驶一段时间后换入车道1；环境车N4由车道2换入车道3后又换入车道4；环境车N5沿车道3保持行驶；环境车N7在车道4保持行驶一段时间后换入车道3；环境车N8沿车道4保持行驶；此种场景下，本车自车道3先连续换道换入车道1后保持行驶。

由此可看到本车可根据所处环境并自主地切换车道保持与换道操作，以及进行主动换道操作，此系统是一种适用于换道及车道保持行为的参数化学习决策控制系统。

Claims

1.一种适用于换道及车道保持的参数化学习决策控制系统，其特征在于，该系统包括感知信号收集及数据存储模块(A)、学习决策参数模块(B)、轨迹规划及运动控制模块(C)和执行跟踪模块(D)；

所述感知信号收集及数据存储模块(A)，用于获得当前车辆和周围环境车辆行驶状态信息并进行信号处理，并收集数据用于后续决策参数的学习训练；

所述学习决策参数模块(B)，用于对收集决策数据进行学习，当系统收集的数据量达到一定阈值或得到一定程度的更新，系统会不断进行学习，基于强化学习方法，学习合适的决策参数值；

所述轨迹规划及运动控制模块(C)，用于车辆规划的实时轨迹规划及运动控制，基于模型预测控制方法，使用学习决策参数模块(B)输出的具体决策参数值大小及感知信号收集及数据存储模块(A)判断的当前驾驶道路类型，确定控制器形式，并滚动优化轨迹；

所述执行跟踪模块(D)，用于对算法输出的控制量进行跟踪控制，采用PID控制器实现，保证控制精度；

所述感知信号收集及数据存储模块(A)与学习决策参数模块(B)、轨迹规划及运动控制模块(C)以及执行跟踪模块(D)相连；所述学习决策参数模块(B)与轨迹规划及运动控制模块(C)相连；所述轨迹规划及运动控制模块(C)与执行跟踪模块(D)相连。

2.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法，其特征在于，该方法包括以下步骤：

步骤一、通过感知信号收集及数据存储模块(A)获得车辆控制算法所需的本车与环境车状态信息，包括：借助车载智能感知模块中车载摄像头、雷达环境感知元件得到的周围车辆的车道，速度，加速度，以及相对于本车以其车道为基准的相对距离，并通过其与其车道中心线的偏移或转向灯信息得到环境车的驾驶意图即保持或者换道，以及本车的车道，速度，并将信息存储于模块中；

步骤二、通过学习决策参数模块(B)学习合适的决策参数值，即行为终端侧向偏移，行为时间，加减速行为的具体数值，将行为时间，加减速行为这两个连续变量在取值范围空间内离散得到离散的动作空间；基于核函数的最小二乘策略迭代强化学习方法，进行状态设计，以及回报设计，当系统收集的数据量达到一定阈值，使用此强化学习算法进行学习；

步骤三、通过轨迹规划及运动控制模块(C)根据学习决策参数模块(B)输出的决策参数数值在线优化求解进行轨迹规划及运动控制，使用包含车辆动力学方程，具有六维状态向量的状态空间方程，并建立具有终端状态约束的约束方程，使得动作执行的过程可以配合不同道路类型；换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移，行为时间，加减速行为，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；对于直道与弯道两种不同的道路条件，相应的变换两种不同的终端状态等式约束条件，即直道条件下对车辆的终端侧向偏移，航向角，侧向速度，横摆角速度进行约束，以及弯道条件下，仅对车辆的终端侧向位移以及航向角进行约束；

步骤四、通过执行跟踪模块(D)对算法输出的控制量进行跟踪控制，采用PID控制器实现，保证控制精度。

3.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法，其特征在于，所述步骤一的具体方法如下：

4.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法，其特征在于，所述步骤二的具体方法如下：

学习决策参数模块(B)基于核函数的最小二乘策略迭代强化学习方法学习合适的决策参数值；将适用于换道及车道保持行为的驾驶决策过程建模为马尔可夫决策过程，包含状态设计，动作设计，回报设计；根据设计的马尔可夫决策过程模型以及所记录的数据，当系统收集的数据量达到一定阈值，使用基于核函数的最小二乘策略迭代强化学习方法进行学习；

2.1)马尔可夫决策过程模型的建立；

①状态设计；

当相应位置无环境车辆时，对应的状态向量值设为0；

②动作设计；

在本问题的框架下，换道及车道保持行为场景对应的决策参数统一且确定，为行为终端侧向偏移T_y，行为时间t_f，加减速行为a_tar；这些决策参数可直接被应用于轨迹规划及运动控制模块(C)中的轨迹规划与运动控制控制器，分别对应模型预测控制器中的终端侧向偏移等式约束，预测时域，目标函数中的加速度参考项；因此，动作向量a可以表示为

a＝(T_y,t_f,a_tar)^T, (3)

其中，行为终端侧向偏移T_y∈{-d_lane,0,d_lane}；d_lane为相邻两车道间的距离，分别对应向左换道，车道保持，向右换道；在动作空间中，将行为时间t_f，加减速行为a_tar这两个连续变量在取值范围空间内离散得到离散的动作空间；因此行为时间t_f的取值可表示为

加减速行为a_tar∈{-1.5,-0.5,0,0.5,1.5}，这些参数化的决策用于描述人类的驾驶行为；

③回报设计；

r_r＝β₁a_tar (6)

r_r＝r_r-0.5若t_f＝4， (7)

r_c＝-β₁|a_tar| (8)

r_c＝r_c-0.5 若t_f＝2， (9)

其中，d_N是位置N处车辆相对于本车以其车道为基准的相对距离，d_c是碰撞距离，TH＝d_N/v_h是车头时距，TH_exp是期望的车头时距，L_N是位置N处车辆车道，L_h为本车车道，β₁,β₂是权重系数，t_f为行为时间，a_tar为加减速行为；因此，总的回报可用下式计算得到

r＝r_s+r_r+r_c+r_a， (10)

2.2)基于核函数的最小二乘策略迭代算法：在连续的状态空间中，使用函数逼近方法表征状态-动作值函数；使用基于核函数的最小二乘策略迭代算法对最优策略进行求解强化学习中状态-动作值函数的权值向量；首先，通过稀疏化过程得到核字典；依据状态对m＝(s,a)中的状态向量s和动作向量a设计特征向量，可以表示为φ(m)＝[s^T,a^T]^T，选择径向基函数作为核函数，可以表示为：

其中，λ＝[λ₁,λ₂,...,λ_t-1]为权值向量，式(12)的解为：

具体计算过程如下：

步骤(5)：输出权值向量α。

5.根据权利要求1所述一种适用于换道及车道保持的参数化学习决策控制系统的方法，其特征在于，所述步骤三的具体方法如下：

其中，M是车辆质量；v_x是纵向车速；v_y为车辆侧向速度；w_r是车辆横摆角速度；F_yf,F_yr分别车辆前轮侧向力和后轮侧向力；I_z为车辆沿z轴的转动惯量；l_f,l_r为前后轴轴距；由于执行跟踪模块(D)中对车辆的纵向速度以及转向运动进行跟踪控制，保证同时这里将控制量简化为前轮转角δ_f和纵向速度数值变化率a；轮胎侧向力F_yf,F_yr可表示为：

其中，下标min，max分别代表相应变量的最小值和最大值；

其中为权重系数；

因此优化问题可建立为