CN113715842A

CN113715842A - 一种基于模仿学习和强化学习的高速运动车辆控制方法

Info

Publication number: CN113715842A
Application number: CN202110971772.XA
Authority: CN
Inventors: 肖力; 魏雨飞; 龚文治; 王卓
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-30
Anticipated expiration: 2041-08-24
Also published as: CN113715842B

Abstract

本发明公开了一种基于模仿学习和强化学习的高速运动车辆控制方法，包括如下步骤：S1，对高速运动车辆进行动力学建模，并对驾驶员驾驶过程中的高速运动车辆的高速动力学参量以及道路中的交通信息进行特征提取，以采集相关数据，得到用于训练的数据集；S2，构建Actor网络和Critic网络，二者共享相同的前置特征提取网络，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化，将高速运动学参量作为网络奖励函数的奖励因素进行计算，并对初始化后的Actor网络和Critic网络使用强化学习进一步优化；S3，利用步骤S2中经过初始化后的Actor网络和Critic网络，对车辆的期望速度及动作进行自主决策。

Description

一种基于模仿学习和强化学习的高速运动车辆控制方法

技术领域

本发明涉及自动驾驶领域，尤其是涉及一种基于模仿学习和强化学习的高速运动车辆控制方法。

背景技术

近年来，随着机器学习相关技术和配套设备的普及，自动驾驶技术也飞速发展。在智能化程度较高的自动驾驶模式下，驾驶员不需要控制车辆，而是由车辆进行环境感知从而进行决策及控制。目前的主流做法为：通过激光雷达、摄像头、GNSS等传感器计算出车辆位姿，结合高精度地图得到车辆周围的环境情况，并进行速度、方向的规划、决策。然而，目前主流的自动驾驶为了安全起见，速度控制仍保持在较低区间。

对于速度的规划决策，目前较多的方案为基于监督学习模型的和基于有限状态机的速度控制器。这两种方案分别需要人工的方式进行数据采集和状态机转移设置，存在主观性。且前者对于高速运动车辆的数据集收集存在困难，其方案仅使用了模仿学习的方式，只是一味模仿人类驾驶员的驾驶规则，缺乏自主探索的能力；后者则全靠人为给定规则，容易出现人为考虑不全面的情况，更没有自主探索的能力。对于高速移动车辆，上述的现有技术中的方案的数据收集和状态机状态转移设置则更为困难。

发明内容

为解决上述背景技术中提出的问题，本发明的目的在于提供一种基于模仿学习和强化学习的高速运动车辆控制方法。

为实现上述目的，本发明采取的技术方案为：

一种基于模仿学习和强化学习的高速运动车辆控制方法，包括如下步骤：

S1，对高速运动车辆进行动力学建模，并对驾驶员驾驶过程中的高速运动车辆的高速动力学参量以及道路中的交通信息进行特征提取，以采集相关数据，得到用于训练的数据集；

S2，构建Actor网络和Critic网络，二者共享相同的前置特征提取网络，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化，初始化时将高速运动学参量作为网络奖励函数的奖励因素进行计算，并对初始化后的Actor网络和Critic网络使用强化学习进一步优化，确保高速运动下动作输出的实时性与准确性；

S3，利用步骤S2中经过初始化后的Actor网络和Critic网络，对车辆的期望速度及动作进行自主决策。

在一些实施例中，步骤S1中，采集并计算获取的高速运动车辆的高速动力学参量包括车辆的中心速度v、车辆的前轮滑移力F_F与后轮滑移力F_R、车辆的漂移角变化率

对高速运动车辆进行动力学建模，并计算上述数据的具体方法如下：

分别以车辆的横向及纵向为X轴及Y轴建立坐标系；

以θ表示速度偏航角，即车辆中心速度v与X轴的夹角，其中v为车辆在后轴中心上的线速度，并以

表示速度偏航角变化率；

以β表示车辆全局滑移角，此参数表示车辆所有轮胎的抓地力合力与轮毂对轮胎作用的侧向力的夹角，在车辆高速运动状态下，轮胎抓地力已不足以抵抗侧向力，车辆发生轻微漂移，因此全局滑移角为车辆重要参数。β_F、β_R分别为前轮及后轮的滑移角，前轮滑移速度为

后轮滑移速度为

β_F、β_R的计算方式如下式所示：

其中a为车辆前轴中心到车辆重心的距离、b为车辆后轴中心到车辆重心的距离、δ_F为前轮转向角；

进一步地，车辆的前轮滑移力F_F与后轮滑移力F_R其表达式如下式所示：

F_F＝C_Fβ_F

F_R＝C_Rβ_R

其中C_F、C_R为转弯刚度参数，此参数与车辆模型与道路模型密切相关；

进一步地，全局漂移角变化率

的表达式如下，式中m表示车辆质量：

由于高速运动下全局漂移角变化率

表征车体漂移发生的风险，同时其变化率不会发生突变，具有一定时序特征，因此该参量序列将作为重要的高速运动学参量送入强化学习网络中。

在一些实施例中，步骤S1中，对于道路中的交通信息，建立交通信息图，并对交通信息图进行数据增强处理；

所述交通信息图中反映有背景车辆位置信息，背景非机动车、行人、障碍物的位置信息，红灯/黄灯信息，绿灯信息，范围内的可行驶区域，范围内的车道边线及路径引导点；

所述交通信息图与车辆的中心速度v、车辆的前轮滑移力F_F、后轮滑移力F_R及车辆的漂移角变化率

一起，作为用于训练的数据集。

在一些实施例中，步骤S2中，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化时，具体包括如下步骤：

S2.1，利用步骤S1中得到的数据集，使用模仿学习初始化端到端的Actor网络，使得Actor网络学习到人类驾驶员的基本驾驶策略；

S2.2，使用初始化后的Actor网络控制车辆，使用环境反馈结合打分规则在共用并冻结前置特征提取网络的前提下初始化Critic网络。

在一些实施例中，步骤S2.1中，采用加入TSM时间移位模块的ResNet18主干特征提取网络对交通信息图进行特征提取；通过全连接层输出车辆的前轮滑移力F_F及后轮滑移力F_R特征；通过LSTM神经网络对中心速度v、车辆漂移角变化率

进行包含时序的特征提取，然后通过全连接层输出特征。

在一些实施例中，步骤S2中，构建两个Critic网络及一个Actor网络，设置两个Critic网络用于对Actor网络的目标动作值函数及目标进行评估，并选择两个Critic网络中的最小的评估值作为最终的评估值；

并且，采用延迟策略更新方法，使Actor网络的参数更新频率低于Critic网络；

Actor网络计算目标动作值函数时，添加基于正态分布的噪声。

在一些实施例中，步骤S2中，对初始化后的Actor网络和Critic网络使用强化学习进一步优化时，还建立有高速运动车辆的强化学习模型，模型中包括：

状态空间S：状态空间包括观测状态向量的时间t、多传感器测距状态S_t、高速运动漂移角变化率

上一观测时刻线速度状态v_t-1、上一观测时刻角速度状态ω_t-1和目标全局位置状态p_t；

动作空间A：网络输出的碰撞避免策略产生的连续动作，包括线速度动作v_t、角速度动作ω_t；

奖励空间R：每个车辆被命令通过路径规划算法生成的路径点导航，同时避免可能出现的碰撞，奖励函数定义为：

r＝r_d+r_sd+r_pt+r_ω+r_v+r_γ

其中，r表示总奖励，r_d表示距离奖励，r_sd描述安全间隙奖励，r_pt表示路径追踪奖励，r_ω表示角加速度奖励，r_v表示线速度奖励，r_γ表示漂移角奖励；

距离奖励r_d的计算方式如下式所示：

当车辆与当前状态预期目标点之间的距离d_p小于距离阈值d_pmin时，给予到达奖励r_dp，否则将距离奖励设置为上一个时间段车辆移动的距离；

到达奖励函数r_dp如下式所示：

r_dp＝α₁C₁

其中α表示权重，C₁为正常数；

路径追踪奖励r_pt如下式所示：

其中v表示车辆此时线速度，α表示车头方向与道路中心线的夹角，w_r表示道路宽度的一半，d表示车体后轴中心与道路中心线的距离；

安全间隙奖励r_sd如下式所示：

其中d_s为车辆与障碍物之间的碰撞预警距离，该距离由车辆传感系统计算获取，当碰撞预警距离在1倍间隙距离d_cmax与2倍间隙距离d_cmax之间时，给予惩罚r_sd1，当碰撞预警距离在1倍间隙距离d_cmax以内时，给予惩罚r_sd2；

角加速度奖励r_ω与线速度奖励r_v分别如下式所示：

当角加速度数值ω高于角加速度阈值ω_pmax时，给予惩罚r_ωp；当线速度v高于线速度阈值v_pmax时，给予惩罚r_vp1；当线速度低于线速度阈值v_pmin且不需要避障时，给予惩罚r_vp2；

漂移角奖励r_γ如下式所示：

车辆在高速运动的情况下，其全局漂移角变化率必须维持在一定的阈值内，这样才能保证高速运动状态下，既能够合理应用滑移效应，又能够避免车辆漂移角变化率过高而带来的不可控性；因此当全局漂移角变化率超出阈值时，给予惩罚r_γp。

与现有技术相比，本发明的有益效果是：

本发明提供的基于模仿学习和强化学习的高速运动车辆控制方法，对车辆进行高速动力学建模，将提取出的高速动力学参数送入深度强化学习网络中，输出速度决策值与动作，并在奖励空间中将车辆速度与高速动力学参数作为重要奖励因素。本发明采用与传统低速运动学不同的高速动力学参数，使得网络可以学习和利用漂移效应；同时采用模仿学习初始化结合强化学习网络的方式，相比于只使用模仿学习的方式有了自主探索的能力，而不是一味的模仿人类驾驶员的驾驶规则；相比于只是用强化学习的自动驾驶训练方案能够更好的保留人类驾驶员对环境的观察、信息利用、驾驶基本策略等习惯，更容易优化出有较好坐乘体验的自动驾驶系统，且模型训练时间相较于后者大大缩短。总的来说，与传统方案相比，本发明使车辆能够自主决策，并充分考虑高速运动车辆状态，能够在可控范围内充分利用车辆漂移效应，最优化车辆速度。

附图说明

图1为本发明提供的基于模仿学习和强化学习的高速运动车辆控制方法的流程示意图；

图2为高速运动车辆的动力学建模中的轮胎滑移率分析图；

图3为一个具体实施例中的Actor网络的示意图；

图4为一个具体实施例中的Critic网络的示意图；

图5为Actor网络与Critic网络相配合的示意图；

图6为路径追踪奖励的原理示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合附图和具体实施方式，进一步阐述本发明是如何实施的。

参照图1所示，本发明提供了一种基于模仿学习和强化学习的高速运动车辆控制方法，包括如下步骤：

S3，利用步骤S2中经过初始化后的Actor网络和Critic网络，对车辆的速度及动作进行自主决策。

进一步地，步骤S1中，采集并计算获取的高速运动车辆的高速动力学参量，包括车辆的中心速度v、车辆的前轮滑移力F_F与后轮滑移力F_R、车辆的漂移角变化率

与低速运动相比，高速运动下车辆运动模型更加复杂，为了让网络更简易的提取和学习车辆高速运动下动力学特征，以便在高速运动情况下实现高精度的速度决策，必须明确考虑车辆行驶过程中存在的不确定性和快速动态性。由于抓地力条件、惯性和低水平控制特性引起的时延难以直接测量，因此需要对车辆的其他状态量进行观测，从而全方面对车辆高速运动进行精确的建模。

参照图2所示，为轮胎滑移率分析图，分别以车辆的横向及纵向为X轴及Y轴建立坐标系；以θ表示速度偏航角，即车辆中心速度v与X轴的夹角，其中v为车辆在后轴中心上的线速度，并以

表示速度偏航角变化率；以β表示车辆全局滑移角，β_F、β_R分别为前轮及后轮的滑移角，设

β_F、β_R的计算方式如下式所示：

其中a为车辆前轴中心到车辆重心的距离、b为车辆后轴中心到车辆重心的距离、δ_F为前轮转向角。

F_F＝C_Fβ_F

F_R＝C_Rβ_R

其中C_F、C_R为转弯刚度参数，此参数与车辆模型与道路模型密切相关；在道路环境变化较小的情况下，可以将滑移力与滑移角的关系表示为上式所示的线性模型，滑移力将作为重要的高速运动学参量送入深度强化学习网络中。

进一步地，全局漂移角变化率

的表达式为：

其中m为车辆质量；全局滑移角变化率将作为车体高速动力学参数传递到深度强化学习网络中，辅助网络对部分激进的过弯策略进行探索。同时，由于全局滑移角变化率具有连续性，因此在后续深度强化学习网络中将提取其时序特征传递入网络中。

对于漂移角变化率

与低速运动状态相比，车辆状态具有不确定性与快速动态性，因此高速运动下车辆运动模型更加复杂，且此模型与道路状况及车辆状况高度耦合，为了让网络更简易的提取和学习车辆高速运动下动力学特征，以便在高速运动情况下实现高精度的速度决策，须将此参数依据车辆模型单独计算，并作为特征序列送入深度强化学习网络中。

对于前轮滑移力F_F与后轮滑移力F_R，在一般城市道路上，滑移力与滑移角为近似线性关系，在道路状况不佳的状况下为非线性关系，为了充分获取道路状况信息增强算法的鲁棒性，将其作为特征参数送入深度强化学习网络中。

进一步地，步骤S1中，对于道路中的交通信息，建立交通信息图，并对交通信息图进行数据增强处理；交通信息图中反映有背景车辆位置信息，背景非机动车、行人、障碍物的位置信息，红灯/黄灯信息，绿灯信息，范围内的可行驶区域，范围内的车道边线及路径引导点；交通信息图与车辆的中心速度v、车辆的前轮滑移力F_F、后轮滑移力F_R及车辆的漂移角变化率

一起，作为用于训练的数据集。

在一个具体实施例中，数据集的采集和预处理可基于如下步骤：

1)数据集配置和准则

1.1)使用开源城市驾驶模拟器Carla在地图上自动选取可行点作为起点和终点。

1.2)从全部天气中选取4种环境特征区分度较大的天气作为训练天气，并从中选取难、简单(难和简单由视觉信息提取难度和实际实验获得)天气各一个用作测试天气，另选两个区分度较大的天气作为测试天气。

1.3)从两个常用地图中选取一个作为训练、测试城镇，另一个保留仅用于测试。

1.4)设置交通参与者为：行人250人，车辆100辆；均使用Carla自带的轨迹规划进行运作，模仿真实条件下的交通流状况，同时由于仿真中可以设置行人任意穿行马路，因而可以收集到相当体量紧急情况下的车辆处置策略数据(使用基于规则的自动驾驶方案)，得到优于实际道路收集的数据广度。

2)数据集预收集

2.1)为了保证车辆在各种道路形状下收集到的行驶数据量的平均，首先进行一批采样间隔0.1s的采样，同时记录车辆的速度、方向盘转角，以及车辆顶部中心视角的前向RGB图像。根据上述第1节方案设定进行数据采集。

2.2)根据上述第2.1节采集的数据进行分析，使用直方图统计的方法得到数据中不同速度、方向盘转角的分布情况。

2.3)根据2.2得到的分布数据，决定对直道数据、静止时数据进行降低采样频率的操作，其中直道数据每3个采样间隔采集一次，静止时数据每6个采样间隔采集一次。同样根据2.2得到的分布数据，对方向盘转角超过阈值的转弯数据进行加强采样，以减小收集同样长时间数据时，由于筛选过多导致的数据量较少造成的训练中的过拟合现象。由于弯道处的车辆顶部中心视角的前向RGB图像变化较为显著，因此降低其采样间隔不会导致数据之间的相似度过大。

2.4)由于在不同天气和同样交通流的状况下，车辆运行完成同样起点到终点的统计平均时间不同，因而，同样要对不同天气下收集到的数据集进行平衡。

3)数据集正式收集

3.1)根据2中所述的数据集平衡方案进行数据收集。

3.2)记录车辆行驶信息，包括：车辆的位置信息、车辆的姿态信息、车辆的速度信息、车辆的加速度信息、车辆的角速度信息、车辆的方向盘转角信息、车辆的油门信息、车辆的刹车信息、车辆的挡位信息。利用车辆行驶信息，可以计算得到车辆的中心速度v、车辆的前轮滑移力F_F、后轮滑移力F_R及车辆的漂移角变化率

3.3)记录车辆周围的环境信息，以车辆为中心、车头方向为正上方，将俯视视角下边长为112m(左右前后各56m)的正方形区域映射为224*224像素的图像(车辆位置在最中心)，分别记录以下交通信息图：

3.3.1)背景车辆位置信息(标记为俯视视角下对应车辆的占地情况)；

3.3.2)背景非机动车、行人、障碍物的位置信息(标记为不同大小的圆形，圆的半径正比于此三类物体的安全区域范围，安全区域与物体速度正相关)；

3.3.3)红灯/黄灯信息(标记为圆形)；

3.3.4)绿灯信息(标记为点)；

3.3.5)范围内的可行驶区域；

3.3.6)范围内的车道边线，其中实线用宽为3像素的线表征，双黄线用宽为6像素的线表征，虚线用宽为3像素的虚线(实线和空白以3像素为周期交替)表征；

3.3.7)路径规划得到的间隔1m的路径引导点。通过上级路径规划算法有多种成熟方案进行路径规划，由于本专利中需要的路径引导点只由需要行驶的道路的中心线和变道连接线组成，为最基础的方案，因此不再赘述。路径点的记录方式为：使用3*3的像素块表征每个路径点，由于本交通信息图表征的范围包含以车辆为中心50m为半径的范围，因此可以确保路径引导点都在画面中。

4)数据增强

由于用于训练的数据中不包含实际视觉信息，而是更高维度的抽象交通信息，因此在实用阶段不存在视觉噪声影响，因此不用对数据集进行诸如变形、亮度变化、增加噪声等操作。数据增强阶段进行的实际操作为随机旋转，在±5°之间对所有7个维度的交通信息图同步进行旋转操作，来模拟车辆偏离车道的情况，以此增强模型的鲁棒性。

按照以上方式，对数据进行收集及增强，可以得到用于训练的数据集，网络的输入由7*224*224的交通信息图、当前车辆速度序列、车辆前轮与后轮滑移力、车辆漂移角变化率组成，通过不同的网络块进行特征提取。其中交通信息图为7个224*224的二值图在通道维度叠加而成。

本发明使用交通信息图替代传统方案中使用高级指令(在路口处给出直行、左转、右转，在其余情况下给出“跟随”)分别训练多个打角&速度预测分支的方案，具有以下优点：

相比于传统方案的优化收敛效果更好。传统方案中，需要分别训练多个使用相同前置特征提取网络的分支，因此不同分支之间对前置特征提取网络在反向传播过程中可能会起到不同方面的优化期望，导致网络的收敛效果差。

相比于传统方案对于数据集各类型的数据分布均衡性要求更低，学习出的网络对路口处的车辆动作机动效果更好。传统方案中，在非路口状态下，均处于“跟随”状态，因此预测分支的训练会主导前置特征提取网络的注意力，由于路口状态下数据量相对较少，会导致其对前置特征提取网络的影响较小，使得路口处的车辆机动效果不好。

相比于传统方案更适合进一步使用强化学习进行优化。传统方案中，为了平衡数据量会针对性的进行很大程度的数据筛选，这会导致强化学习在优化的时候也需要精简很多数据量，这会导致强化学习过程中错过有效的偶然情况，这对于网络的优化是必要的。我们的方案由于使用单一分支，可以更好的在强化学习的过程中充分利用每一个step的环境反馈优化网络的特征提取能力、动作执行效果，能以更加统一的规则描述驾驶行为，这更符合“端到端”网络的根本需求，取得了更好的优化效果。

进一步地，步骤S2中，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化时，具体包括如下步骤：

在一个具体实施例中，Actor网络和Critic网络的结构分别参照图3和图4所示，虚线框住的部分表示前置特征提取网络。可见，二者的前置特征提取网络结构相同，并且，步骤S2.1中，采用加入TSM时间移位模块的ResNet18主干特征提取网络对交通信息图进行特征提取，之后通过池化层降低维度，并通过全连接层FC1024输出1024维特征；采用LSTM128神经网络对速度、车辆漂移角变化率进行包含时序的特征提取，然后通过全连接层FC128输出128维特征；通过全连接层FC128将车辆前轮与后轮滑移力转换为128维特征；并且，Actor网络和Critic网络均通过concate模块对各输入端进行拼接。

对于Actor网络，得到前置特征提取网路的输出并接出两个任务分支，分别进行期望方向盘打角和期望油门/刹车的预测，两者合并组成输出动作a。使用数据集中驾驶员实际做出的方向盘打角以及油门/刹车作为Ground-Truth对两个任务分支以及前置特征提取网络进行优化(初始化)。Actor网络使用单网络多任务的方式进行搭建实现；油门/刹车预测本质上是速度预测任务，与方向盘打角的预测存在相关性，因此，共用前置特征提取网络的设计可以使两个任务的效果均得到促进。

对于Critic网络，其输入端增加了Actor网络的输出动作a。使用训练后的Actor网络控制车辆，并使用Critic网络对Actor的控制效果进行打分，得到当前环境反馈分数Score_Truth。将Actor的两个控制输出量和前置特征提取网络的输出进行通过concate模块拼接，并通过全连接层FC128+FC50得到输出打分Score_Predict，使用环境反馈分数Score_Truth对输出打分Score_Predict进行优化(初始化)；在此优化(初始化)过程中，冻结前置特征提取网络的参数，避免两个网络同时优化导致的参数难以收敛，同时分别通过梯度截断更好的对网络结构各部分进行分别的优化；在使用强化学习进行非监督优化时，仅在Critic网络更新时更新特征提取网络参数。共用相同的前置特征提取网络可以使得Critic网络训练(到收敛)更快，因为不需要再对前置特征提取网络的参数进行优化。共用相同的前置特征提取网络可以在后续使用强化学习进一步优化的时候仅在优化Critic网络的阶段优化前置特征提取网络、在优化Actor网络的阶段冻结前置特征提取网络参数，这种分别优化特征提取网络和任务分支的思路在二者均已基本收敛的时候表现出更好的针对性，有利于梯度传递。

本发明使用了TSM时间移位模块，加入到ResNet18主干特征提取网络中，用以学习车辆行驶过程中周围交通信息图的时序特征。相比于使用传统的ResNet18进行特征提取，额外关注到了交通信息图中的时序信息，符合人类驾驶员做出判断的依据，使得网络可以理解行人/非机动车/其他机动车的运动趋势，更加安全的完成行驶任务；相比于使用Two-Stream CNN、3D CNN进行时序特征提取的方法，参数量更小，因此学习成本更低、模型收敛更快、推算速度更快、实时性更好。

并且，对于速度、漂移角变化率两个具有时序特征的参量，通过LSTM结构提取其渐变特征，相比于直接使用全连接层进行速度特征的提取更符合实际(仿真)环境下的车辆运行规律，有利于油门/刹车预测结果的稳定性和方向盘打角预测的连续性。

对于速度、漂移角变化率两个具有时序特征的参量，通过LSTM结构提取其渐变特征，相比于直接使用全连接层进行速度特征的提取更符合实际(仿真)环境下的车辆运行规律，有利于油门/刹车预测结果的稳定性和方向盘打角预测的连续性。

优选地，参照图5所示，步骤S2中，构建两个Critic网络及一个Actor网络，设置两个Critic网络用于对Actor网络的目标动作值函数及目标进行评估，并选择两个Critic网络中的最小的评估值作为最终的评估值。

在诸如DQN等基于值函数的强化学习方法中，TD-error导致值函数过估计和次优策略的产生，且该问题在Actor-Critic网络中为普遍存在的问题。本发明中算法建立在DQN的基础上，通过取两个Critic网络中的最小值来限制过估计。同时利用目标网络与高估偏差之间的联系，并采用延迟更新策略，即Actor网络参数较Critic的更新频率更低，以减少每次更新的错误，进一步提高深度强化学习网络性能，通过该方法可以降低近似动作值函数的方差。另外，Actor网络计算目标动作值函数时，添加基于正态分布的噪声，提高算法的鲁棒性。

本发明使用模仿学习对Actor网络和Critic网络进行初始化，可以大大提升后续强化学习网络的训练效率，帮助网络渡过最开始的“无意义探索”的阶段，得到一个基本正确的方案，并在此方案上进一步探索。

进一步地，步骤S2中，对初始化后的Actor网络和Critic网络使用强化学习进一步优化时，还建立有高速运动车辆的强化学习模型，模型中包括：

上一观测时刻线速度状态v_t-1、上一观测时刻角速度状态ω_t-1和目标全局位置状态p_t。

动作空间A：网络输出的碰撞避免策略产生的连续动作，包括线速度动作v_t、角速度动作ω_t。

r＝r_d+r_sd+r_pt+r_ω+r_v+r_γ

距离奖励r_d的计算方式如下式所示：

当车辆与当前状态预期目标点之间的距离d_p小于距离阈值d_pmin时，给予到达奖励r_dp，否则将距离奖励设置为上一个时间段车辆移动的距离。

到达奖励函数r_dp如下式所示：

r_dp＝α₁C₁

其中α表示权重，C₁为正的常数。

参照图6，在公路上行驶时，为了确保与人类驾驶习惯保持一致，要使车辆尽可能沿着道路中心线行驶，因此给予路径追踪奖励；路径追踪奖励r_pt如下式所示：

其中v表示车辆此时线速度，α表示车头方向与道路中心线的夹角，w_r表示道路宽度的一半，d表示车体后轴中心与道路中心线的距离。

为了避免碰撞，设定安全间隙奖励r_sd，如下式所示：

其中d_s为车辆与障碍物之间的碰撞预警距离，该距离由车辆传感系统计算获取，当碰撞预警距离在1倍间隙距离d_cmax与2倍间隙距离d_cmax之间时，给予惩罚r_sd1，当碰撞预警距离在1倍间隙距离d_cmax以内时，给予惩罚r_sd2；其余情况均不给予惩罚。

角加速度奖励r_ω与线速度奖励r_v分别如下式所示：

角加速度奖励与线速度奖励类似，当角加速度数值ω高于角加速度阈值ω_pmax时，给予惩罚r_ωp，以免角速度高出可控制范围，且角速度变化率过快而导致车辆失稳甚至受损；当线速度v高于线速度阈值v_pmax时，给予惩罚r_vp1，以免线速度高出可控制范围；当线速度低于线速度阈值v_pmin且不需要避障时，给予惩罚r_vp2，避免因不必要的减速影响高速运动性能。

漂移角奖励r_γ如下式所示：

车辆在高速运动的情况下，其全局漂移角变化率必须维持在一定的阈值内，这样才能保证高速运动状态下，既能够合理应用漂移效应，又能够避免车辆漂移角变化率过高而带来的不可控性；因此当全局漂移角变化率超出阈值时，给予惩罚r_γp。

在强化学习中，Actor网络和Critic网络结构在此前已有描述，在此不再赘述。采用模仿学习对Actor网络和Critic网络进行初始化操作后，Actor网络和Critic网络可以达到基本正常控制车辆运行的目标。由于车辆在高速运动情况下，其需要观测的状态量多且变化率大，若用传统方法难以提取数据特征。同时，在面对不同的道路交通环境时，基础控制策略需要根据环境不断进行改进，因此采用集成值函数估计算法和策略搜索算法的Actor-Critic网络非常合适，然而由于函数逼近误差的存在，导致了值函数过估计且基础策略非最优，故此本发明中设置2个Critic网络，通过选择Critic网络中的最小值以防止值函数的过高估计，同时采用延迟策略更新方法减少每次参数更新时产生的误差，从而进一步提高网络的性能。

本发明提供的基于模仿学习和强化学习的高速运动车辆控制方法，对车辆进行高速动力学建模，将提取出的高速动力学参数送入深度强化学习网络中，输出速度决策值与动作，并在奖励空间中将车辆速度与高速动力学参数作为重要奖励因素。本发明采用与传统低速运动学不同的高速动力学参数，充分利用漂移效应对车辆进行高速运动控制，在可控范围内对车辆速度最大化；同时采用模仿学习初始化结合强化学习网络的方式，相比于只使用模仿学习的方式有了自主探索的能力，而不是一味的模仿人类驾驶员的驾驶规则；相比于只是用强化学习的自动驾驶训练方案能够更好的保留人类驾驶员对环境的观察、信息利用、驾驶基本策略等习惯，更容易优化出有较好坐乘体验的自动驾驶系统，且模型训练时间相较于后者大大缩短。总的来说，与传统方案相比，本发明使车辆能够自主决策，并充分考虑高速运动车辆状态，能够在可控范围内充分利用车辆漂移效应，最优化车辆速度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，包括如下步骤：

S2，构建Actor网络和Critic网络，二者共享相同的前置特征提取网络，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化，初始化时将高速运动学参量作为网络奖励函数的奖励因素进行计算，并对初始化后的Actor网络和Critic网络使用强化学习进一步优化；

S3，利用步骤S2中经过初始化后的Actor网络，对高速运动状态下车辆的期望速度及动作进行自主决策。

2.根据权利要求1所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S1中，采集并计算获取的高速运动车辆的高速动力学参量包括车辆的中心速度v、车辆的前轮滑移力F_F与后轮滑移力F_R、车辆的漂移角变化率

分别以车辆的横向及纵向为X轴及Y轴建立坐标系；

表示速度偏航角变化率；

以β表示车辆全局滑移角，此参数表示车辆所有轮胎的抓地力合力与轮毂对轮胎作用的侧向力的夹角，β_F、β_R分别为前轮及后轮的滑移角，前轮滑移速度为

后轮滑移速度为

β_F、β_R的计算方式如下式所示：

F_F＝C_Fβ_F

F_R＝C_Rβ_R

进一步地，全局漂移角变化率

的表达式如下，式中m表示车辆质量：

3.根据权利要求2所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S1中，对于道路中的交通信息，建立交通信息图，并对交通信息图进行数据增强处理；

一起，作为用于训练的数据集。

4.根据权利要求3所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S2中，利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化时，具体包括如下步骤：

5.根据权利要求4所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S2.1中，采用加入TSM时间移位模块的ResNet18主干特征提取网络对交通信息图进行特征提取；通过全连接层输出车辆的前轮滑移力F_F及后轮滑移力F_R特征；通过LSTM神经网络对中心速度v、车辆漂移角变化率

进行包含时序的特征提取，然后通过全连接层输出特征。

6.根据权利要求5所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S2中，构建两个Critic网络及一个Actor网络，设置两个Critic网络用于对Actor网络的目标动作值函数及目标进行评估，并选择两个Critic网络中的最小的评估值作为最终的评估值；

Actor-Critic网络奖励空间中，将车辆速度及全局漂移角变化率作为奖励或惩罚给予的重要标准，以保证在可控的漂移状态下尽可能提高车辆运动速度；

7.根据权利要求6所述的基于模仿学习和强化学习的高速运动车辆控制方法，其特征在于，步骤S2中，对初始化后的Actor网络和Critic网络使用强化学习进一步优化时，还建立有高速运动车辆的强化学习模型，模型中包括：

r＝r_d+r_sd+r_pt+r_ω+r_v+r_γ

距离奖励r_d的计算方式如下式所示：

到达奖励函数r_dp如下式所示：

r_dp＝α₁C₁

其中α表示权重，C₁为正常数；

路径追踪奖励r_pt如下式所示：

安全间隙奖励r_sd如下式所示：

角加速度奖励r_ω与线速度奖励r_v分别如下式所示：

漂移角奖励r_γ如下式所示：

当全局漂移角变化率超出阈值时，给予惩罚r_γp。