CN115285135A

CN115285135A - 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

Info

Publication number: CN115285135A
Application number: CN202210824663.XA
Authority: CN
Inventors: 王科银; 石振; 张建辉; 杨正才
Original assignee: Hubei University of Automotive Technology
Current assignee: Hubei University of Automotive Technology
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-04

Abstract

本发明涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，基于NGSIM项目实测高精度交通流数据集，设定相应的规则对原始数据进行筛选，得到符合条件的跟驰对数据，将跟车对数据分为训练数据和验证数据。基于训练数据对驾驶人的驾驶特性进行分析，同时基于支持向量机算法搭建了驾驶风格辨识模型。基于对不同特性驾驶员的跟驰行为分析结果，融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法的跟驰模型。在所搭建的训练环境中对模型进行训练得到不同驾驶风格的深度强化学习跟驰模型，基于验证数据的仿真结果显示，所搭建的跟驰模型在保证安全性和舒适性的前提下能够体现不同的驾驶特性。

Description

融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

技术领域

本发明属于智能驾驶辅助系统技术领域，涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法。

背景技术

车辆跟驰行驶是道路交通中的常见现象，特别是在当今交通拥堵频发的城市交通中跟驰行为更为普遍。对车辆跟驰行为的研究，是智能驾驶领域单车跟驰控制和多车列队行驶控制的重要研究内容。

车辆跟驰模型作为交通流理论中的最基础性的研究之一，无论是研究单车智能还是智能网联都是不可或缺的研究内容。同时人们对智能驾驶车辆跟驰行驶不再仅仅满足于简单的实现后车车速跟随前车变化，更多的要求车辆在保证安全性、舒适性的前提下，考虑驾驶风格实现拟人化的跟驰来满足不同驾乘人的需求，该专利就是在这种背景下提出的。

发明内容

本发明公开一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，本发明将驾驶风格融入跟驰模型的研究，搭建了考虑驾驶人风格个性化跟驰模型，使得所搭建的跟驰模型能够满足不同驾乘人对智能驾驶的个性化需求，提升智能驾驶系统的接受度。

本发明所采用的技术方案是：

一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，步骤如下：

步骤S1：基于NGSIM（Next Generation Simulation）项目实测高精度交通流数据集，设定相应的规则对原始数据进行处理并筛选，得到符合条件的跟驰对数据，在处理得到的数据集中随机选取70%的跟车对数据做为训练数据，其余的跟车对数据做为测试数据；

步骤S2：以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性，采用K-means聚类算法对进行驾驶风格聚类，分为激进型和保守型两类；对不同风格的跟车数据做统计分析，得到不同驾驶风格下的最小跟车间距值，激进型的驾驶风格为4.09m，而保守型的驾驶风格为5.63m；

步骤S3：基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型；

步骤S4：基于对不同特性驾驶员的跟驰行为分析结果，融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法（Deep DeterministicPolicy Gradient, DDPG）的跟驰模型；

步骤S5：搭建仿真环境、设置参数，在所搭建的仿真环境中，基于步骤1所得的训练数据对DDPG跟驰模型进行训练，训练过程中的每一幕随机选择训练数据中的跟车对训练模型，当发生碰撞或者跟车事件结束时，当前幕结束，重新开始下一幕的训练；得到不同驾驶风格的深度强化学习跟驰模型；

步骤S6：基于测试数据测试模型。

进一步的，所述步骤S1中的NGSIM原始数据的处理操作如下：选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据为原始数据，针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理，选取Savitzky-Golay滤波器的窗口长度为21，多项式阶数为3对原始数据进行平滑处理。

进一步的，所述步骤S1中的NGSIM原始数据的筛选操作的规则如下：

S1.1、车辆类型选择为小型车，即v_Class=2；

S1.2、跟车对的持续时长大于15s；

S1.3、跟车对中，目标车和主车之间的车头间距小于150ft(英尺)，约45.72m，即Space_Headway（车头间距）<=150。

S1.4、跟车时，主车和目标车的车速大于0；

S1.5、I-80检测路段中，1-5为行车道，6为集散车道，7为入口匝道，8为出口匝道，只选择Lane_ID为1-5行车道上的跟车对。

进一步的，所述步骤S4的具体操作如下：

步骤S4.1：强化学习状态空间和动作空间设计，状态空间选择为两车跟车间距、两车速度差和主车速度，即

；动作空间选择为主车加速度，即

。

步骤S4.2：强化学习奖励函数的设计，奖励函数：

其中，

为算法运行过程中两车模拟车距，

为公式所示的期望跟车距离，

碰撞惩罚因子，

为碰撞检测标识，在算法运行过程中发生碰撞即

时，

；否则

。

期望跟车距离的计算如下：

其中，

为k时刻主车的期望跟车距离，

为期望车头时距，

为最小安全距离。

步骤S4.3：环境更新策略的设计，把主车运动看作质点的运动，根据如下的质点运动学模型计算得到主车位置和主车速度。

其中，

为0.1s，

为t时刻主车位置，

为t时刻的主车速度，

为t时刻的主车加速度，起始时刻主车位置设为0；

步骤S4.4：设计Actor和Critic的神经网络结构。Actor神经网络的输入为相对距离、相对速度和主车速度，输出为主车加速度，因为中间层和输出层应用了tanh激活函数，把输出和系数δ相乘得到模拟加速度值。Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出，输出为Q值函数。Actor和Critic网络的中间层均有30个神经元，除了Actor网络的中间层和输出层应用了tanh激活函数，其他的层层之间均采用ReLU激活函数；

得到基于DDPG的跟驰模型框架。

进一步的，所述步骤S6的具体操作如下：

步骤S6.1、模型测试：为了对比不同驾驶风格的跟驰模型之间的差异，在测试数据上测试了不同风格的跟驰模型，具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况；

步骤S6.2、在测试集中随机选择跟车对对比不同跟驰模型：把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型，得到其驾驶风格，对比NGSIM驾驶数据和不同风格的跟驰模型可以看出，本发明所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。

本发明选用在国内外被广泛应用的NGSIM项目实测高精度交通流数据集，首先采用Savitzky-Golay滤波算法对采用原始数据进行滤波处理；接下来根据设定的数据提取规则对NGSIM原始数据进行筛选，得到符合条件的跟驰对数据；最后从跟车间距、跟车速度、相对速度、跟车加速度和车头时距几个方面对跟车对数据进行了统计分析，为接下来的研究提供数据支撑。

首先基于遗传算法采用模拟加速度值与实际加速度值的均方根百分比误差作为拟合优度函数标注了IDM跟驰模型；考虑安全性、舒适性和跟随性设计了MPC跟驰模型；搭建三层BP神经网络跟驰模型并完成模型训练；结合期望跟车间距设计强化学习奖励函数，搭建强化学习训练环境完成了DDPG跟车模型的训练。其次选择合适的评价指标对跟驰模型的拟人化程度进行对比分析，得到DDPG的拟人化程度最高，为接下来融合驾驶风格的跟驰模型设计提高依据。

首先选用相对速度、车头时距和跟车加速度绝对值参数表征驾驶人跟车行驶时的驾驶特性，采用K-means聚类方法实现驾驶风格的聚类分析，把驾驶风格聚为激进型和保守型两类。其次基于SVM算法搭建了驾驶风格辨识模型。最好，基于DDPG搭建了不同驾驶风格的跟驰模型，并对不同驾驶风格的跟驰模型进行了仿真分析，结果显示，本文所搭建的不同风格的跟驰模型在跟驰行驶时可以表现出不同的驾驶风格，并且其表现更接近驾驶风格辨识结果。

本发明的有益技术效果：

1）深度强化学习奖励函数设计简单，参数较少，便于整定参数，同时在奖励函数中融合不同驾驶风格。

2）本发明所涉及的融合驾驶风格的跟驰模型可以在驾驶员脱手时继续以当前驾驶员的驾驶风格驾驶车辆满足不同驾乘人对自动驾驶的个性化需求，从而提升人们对自动驾驶的接受度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是本发明的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法流程图；

图2是测试车在一段时间内的纵向位置的平滑效果图；

图3是测试车在一段时间内的车辆行驶速度的平滑效果图；

图4是测试车在一段时间内的行驶加速度的平滑效果图；

图5是驾驶风格聚类结果图；

图6是Actor神经网络结构示意图；

图7是Critic神经网络结构示意图；

图8是基于DDPG的跟驰模型框架；

图9是激进型驾驶风格模型训练奖励变化曲线；

图10是保守型驾驶风格模型训练奖励变化曲线；

图11是不同风格的跟驰模型跟车距离分布图；

图12是不同风格的跟驰模型跟车相对速度分布图；

图13是不同风格的跟驰模型跟车加速度分布图；

图14是不同风格的跟驰模型跟车跟车间距变化曲线；

图15是不同风格的跟驰模型跟车相对速度变化曲线；

图16是不同风格的跟驰模型跟车加速度变化曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，具体流程如图1所示：

步骤S6：基于测试数据测试模型。

在本实施例中，详细的方法步骤如下所述：

步骤S1.1：选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据用来分析处理，由于NGSIM中的原始数据是由视频处理得来，存在一定的异常值和测量误差，为了得到较为精确的车辆行驶数据需要对原始数据进行加工处理。本实施例针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理。选取Savitzky-Golay滤波器的窗口长度为21，多项式阶数为3对原始数据进行平滑处理。图2、3、4分别展示了测试车在一段时间内的纵向位置、车辆行驶速度和行驶加速度的平滑效果图。

步骤S1.2：NGSIM数据集中包含了测量时段内所有车辆的行驶信息，为了得到所需的车辆跟驰数据，需要对原始数据进行筛选，定义以下数据的筛选规则：

（1）车辆类型选择为小型车，即v_Class=2；原始数据集中包含了小型车、大型车和摩托车的行车数据，不同类型车的跟驰行为表现可能不完全相同，通过观察发现数据集中小型车的数据占绝大多数，故选择小型车做为研究对象，保证能够筛选出足够的数据量。

（2）跟车对的持续时长大于15s；该规则为了保证主车在一定时段内处于稳定的跟车状态，从而得到足够的跟驰数据。

（3）跟车对中，目标车和主车之间的车头间距小于150ft(英尺)，约45.72m，即Space_Headway（车头间距）<=150；该条规则保证主车处于跟驰状态，不会因为两车之间的距离太大而处于自由行驶状态。

（4）跟车时，主车和目标车的车速大于0；保证车辆都处于行驶状态，而不会出现中途停车的情况，影响对跟驰行为的分析。

（5）只选择行车道上的跟车对；I-80检测路段中，1-5为行车道，6为集散车道，7为入口匝道，8为出口匝道，为了保证所研究的车辆具有相似的驾驶行为，所以只选择Lane_ID为1-5的跟车数据。

在处理得到的数据集中随机选取70%的跟车对数据做为训练数据，其余的跟车对数据做为验证数据。

步骤S2.1：本研究选择相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性。采用K-means聚类算法对步骤1处理所得的跟车对数据把驾驶风格聚为激进型和保守型两类。聚类结果示意图见图2，驾驶风格聚类结果如表1所示。

步骤S2.2：对不同风格的跟车数据做统计分析，得到不同驾驶风格下的最小跟车间距值，激进型的驾驶风格为4.09m，而保守型的驾驶风格为5.63m。

步骤S3：基于SVM搭建驾驶风格辨识模型，并基于训练数据对模型进行训练。

步骤S4.1：所述步骤S4的具体操作如下：

；动作空间选择为主车加速度，即

。

步骤S4.2：强化学习奖励函数的设计，奖励函数：

其中，

为算法运行过程中两车模拟车距，

为公式所示的期望跟车距离，

碰撞惩罚因子，

为碰撞检测标识，在算法运行过程中发生碰撞即

时，

；否则

。

期望跟车距离的计算如下：

其中，

为k时刻主车的期望跟车距离，

为期望车头时距，

为最小安全距离。

其中，

为0.1s，

为t时刻主车位置，

为t时刻的主车速度，

为t时刻的主车加速度，起始时刻主车位置设为0；

步骤4.4：神经网络结构：设计Actor和Critic的神经网络结构如图6-图7所示；

Actor网络的输入为相对距离、相对速度和主车速度，输出为主车加速度，因为中间层和输出层应用了tanh激活函数，把输出和系数δ相乘得到模拟加速度值。

Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出，输出为Q值函数。Actor和Critic网络的中间层均有30个神经元，除了Actor网络的中间层和输出层应用了tanh激活函数，其他的层层之间均采用ReLU激活函数。

得到基于DDPG的跟驰模型框架如图8所示。

步骤S5：基于步骤S1所得的训练数据对DDPG跟驰模型进行训练，训练过程中的每一幕随机选择训练数据中的跟车对训练模型，当发生碰撞或者跟车事件结束时，当前幕结束，重新开始下一幕的训练。整个训练过程中的参数设置如表2所示。两种风格的跟驰模型在训练过程中的平均奖励变化曲线如图9和图10所示。

步骤S6.1：模型测试:为了对比不同驾驶风格的跟驰模型之间的差异，在测试数据上测试了不同风格的跟驰模型。具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况。由图11-图13可以看出激进型的驾驶风格跟车间距更小，其均值为19.96m，而保守型驾驶风格的跟车间距均值为30.45m；激进型驾驶风格的跟车相对速度更小，其均值为0.13m/s，保守型驾驶风格的跟车相对速度均值为0.45m/s；激进型驾驶风格的跟车加速度绝对值更大，其均值为0.43m/s²，保守型驾驶风格的跟车加速度均值为0.40m/s²。

步骤S6.2：在测试集中随机选择跟车对对比不同跟驰模型。把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型，得到其驾驶风格为激进型，参见图14-16，对比NGSIM驾驶数据和不同风格的跟驰模型可以看出，本文所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。

Claims

1.融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，其特征在于：步骤如下：

步骤S2：以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性，采用K-means聚类算法进行驾驶风格聚类，分为激进型和保守型两类；对不同风格的跟车数据做统计分析，得到不同驾驶风格下的最小跟车间距值，激进型的驾驶风格为4.09m，而保守型的驾驶风格为5.63m；

步骤S4：基于对不同特性驾驶员的跟驰行为分析结果，融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法（Deep Deterministic PolicyGradient, DDPG）的跟驰模型；

步骤S6：基于测试数据测试模型。

2.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，其特征在于：所述步骤S1中的NGSIM原始数据的处理操作如下：选取I-80路段中时段04:00p.m.-04:15 p.m.的数据为原始数据，针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理，选取Savitzky-Golay滤波器的窗口长度为21，多项式阶数为3对原始数据进行平滑处理。

3.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，所述步骤S1中的NGSIM原始数据的筛选操作的规则如下：

S1.1、车辆类型选择为小型车，即v_Class=2；

S1.2、跟车对的持续时长大于15s；

S1.3、跟车对中，目标车和主车之间的车头间距小于150ft(英尺)，即Space_Headway（车头间距）<=150；

S1.4、跟车时，主车和目标车的车速大于0；

4.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法，其特征在于，所述步骤S4的具体操作如下：