CN115285135A - 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 - Google Patents

融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 Download PDF

Info

Publication number
CN115285135A
CN115285135A CN202210824663.XA CN202210824663A CN115285135A CN 115285135 A CN115285135 A CN 115285135A CN 202210824663 A CN202210824663 A CN 202210824663A CN 115285135 A CN115285135 A CN 115285135A
Authority
CN
China
Prior art keywords
following
data
vehicle
model
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210824663.XA
Other languages
English (en)
Inventor
王科银
石振
张建辉
杨正才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Automotive Technology
Original Assignee
Hubei University of Automotive Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Automotive Technology filed Critical Hubei University of Automotive Technology
Priority to CN202210824663.XA priority Critical patent/CN115285135A/zh
Publication of CN115285135A publication Critical patent/CN115285135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/16Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
    • B60W30/162Speed limiting therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • B60W40/04Traffic conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/005Handover processes
    • B60W60/0051Handover processes from occupants to vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0029Mathematical model of the driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/30Driving style
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/406Traffic density
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,基于NGSIM项目实测高精度交通流数据集,设定相应的规则对原始数据进行筛选,得到符合条件的跟驰对数据,将跟车对数据分为训练数据和验证数据。基于训练数据对驾驶人的驾驶特性进行分析,同时基于支持向量机算法搭建了驾驶风格辨识模型。基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法的跟驰模型。在所搭建的训练环境中对模型进行训练得到不同驾驶风格的深度强化学习跟驰模型,基于验证数据的仿真结果显示,所搭建的跟驰模型在保证安全性和舒适性的前提下能够体现不同的驾驶特性。

Description

融合驾驶风格的深度强化学习车辆跟驰模型的构建方法
技术领域
本发明属于智能驾驶辅助系统技术领域,涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法。
背景技术
车辆跟驰行驶是道路交通中的常见现象,特别是在当今交通拥堵频发的城市交通中跟驰行为更为普遍。对车辆跟驰行为的研究,是智能驾驶领域单车跟驰控制和多车列队行驶控制的重要研究内容。
车辆跟驰模型作为交通流理论中的最基础性的研究之一,无论是研究单车智能还是智能网联都是不可或缺的研究内容。同时人们对智能驾驶车辆跟驰行驶不再仅仅满足于简单的实现后车车速跟随前车变化,更多的要求车辆在保证安全性、舒适性的前提下,考虑驾驶风格实现拟人化的跟驰来满足不同驾乘人的需求,该专利就是在这种背景下提出的。
发明内容
本发明公开一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,本发明将驾驶风格融入跟驰模型的研究,搭建了考虑驾驶人风格个性化跟驰模型,使得所搭建的跟驰模型能够满足不同驾乘人对智能驾驶的个性化需求,提升智能驾驶系统的接受度。
本发明所采用的技术方案是:
一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,步骤如下:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法对进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
进一步的,所述步骤S1中的NGSIM原始数据的处理操作如下:选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据为原始数据,针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理,选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。
进一步的,所述步骤S1中的NGSIM原始数据的筛选操作的规则如下:
S1.1、车辆类型选择为小型车,即v_Class=2;
S1.2、跟车对的持续时长大于15s;
S1.3、跟车对中,目标车和主车之间的车头间距小于150ft(英尺),约45.72m,即Space_Headway(车头间距)<=150。
S1.4、跟车时,主车和目标车的车速大于0;
S1.5、I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,只选择Lane_ID为1-5行车道上的跟车对。
进一步的,所述步骤S4的具体操作如下:
步骤S4.1:强化学习状态空间和动作空间设计,状态空间选择为两车跟车间距、两车速度差和主车速度,即
Figure DEST_PATH_IMAGE001
;动作空间选择为主车加速度,即
Figure 100002_DEST_PATH_IMAGE002
步骤S4.2:强化学习奖励函数的设计,奖励函数:
Figure 996075DEST_PATH_IMAGE003
其中,
Figure 100002_DEST_PATH_IMAGE004
为算法运行过程中两车模拟车距,
Figure 57090DEST_PATH_IMAGE005
为公式所示的期望跟车距离,
Figure DEST_PATH_IMAGE006
碰撞惩罚因子,
Figure 712194DEST_PATH_IMAGE007
为碰撞检测标识,在算法运行过程中发生碰撞即
Figure DEST_PATH_IMAGE008
时,
Figure 100002_DEST_PATH_IMAGE009
;否则
Figure 100002_DEST_PATH_IMAGE010
期望跟车距离的计算如下:
Figure DEST_PATH_IMAGE011
其中,
Figure 100002_DEST_PATH_IMAGE012
k时刻主车的期望跟车距离,
Figure 100002_DEST_PATH_IMAGE013
为期望车头时距,
Figure 100002_DEST_PATH_IMAGE014
为最小安全距离。
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度。
Figure 668255DEST_PATH_IMAGE015
Figure 100002_DEST_PATH_IMAGE016
其中,
Figure 436622DEST_PATH_IMAGE017
为0.1s,
Figure 100002_DEST_PATH_IMAGE018
t时刻主车位置,
Figure DEST_PATH_IMAGE019
t时刻的主车速度,
Figure 100002_DEST_PATH_IMAGE020
t时刻的主车加速度,起始时刻主车位置设为0;
步骤S4.4:设计Actor和Critic的神经网络结构。Actor神经网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值。Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数。Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数;
得到基于DDPG的跟驰模型框架。
进一步的,所述步骤S6的具体操作如下:
步骤S6.1、模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型,具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况;
步骤S6.2、在测试集中随机选择跟车对对比不同跟驰模型:把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本发明所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。
本发明选用在国内外被广泛应用的NGSIM项目实测高精度交通流数据集,首先采用Savitzky-Golay滤波算法对采用原始数据进行滤波处理;接下来根据设定的数据提取规则对NGSIM原始数据进行筛选,得到符合条件的跟驰对数据;最后从跟车间距、跟车速度、相对速度、跟车加速度和车头时距几个方面对跟车对数据进行了统计分析,为接下来的研究提供数据支撑。
首先基于遗传算法采用模拟加速度值与实际加速度值的均方根百分比误差作为拟合优度函数标注了IDM跟驰模型;考虑安全性、舒适性和跟随性设计了MPC跟驰模型;搭建三层BP神经网络跟驰模型并完成模型训练;结合期望跟车间距设计强化学习奖励函数,搭建强化学习训练环境完成了DDPG跟车模型的训练。其次选择合适的评价指标对跟驰模型的拟人化程度进行对比分析,得到DDPG的拟人化程度最高,为接下来融合驾驶风格的跟驰模型设计提高依据。
首先选用相对速度、车头时距和跟车加速度绝对值参数表征驾驶人跟车行驶时的驾驶特性,采用K-means聚类方法实现驾驶风格的聚类分析,把驾驶风格聚为激进型和保守型两类。其次基于SVM算法搭建了驾驶风格辨识模型。最好,基于DDPG搭建了不同驾驶风格的跟驰模型,并对不同驾驶风格的跟驰模型进行了仿真分析,结果显示,本文所搭建的不同风格的跟驰模型在跟驰行驶时可以表现出不同的驾驶风格,并且其表现更接近驾驶风格辨识结果。
本发明的有益技术效果:
1)深度强化学习奖励函数设计简单,参数较少,便于整定参数,同时在奖励函数中融合不同驾驶风格。
2)本发明所涉及的融合驾驶风格的跟驰模型可以在驾驶员脱手时继续以当前驾驶员的驾驶风格驾驶车辆满足不同驾乘人对自动驾驶的个性化需求,从而提升人们对自动驾驶的接受度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法流程图;
图2是测试车在一段时间内的纵向位置的平滑效果图;
图3是测试车在一段时间内的车辆行驶速度的平滑效果图;
图4是测试车在一段时间内的行驶加速度的平滑效果图;
图5是驾驶风格聚类结果图;
图6是Actor神经网络结构示意图;
图7是Critic神经网络结构示意图;
图8是基于DDPG的跟驰模型框架;
图9是激进型驾驶风格模型训练奖励变化曲线;
图10是保守型驾驶风格模型训练奖励变化曲线;
图11是不同风格的跟驰模型跟车距离分布图;
图12是不同风格的跟驰模型跟车相对速度分布图;
图13是不同风格的跟驰模型跟车加速度分布图;
图14是不同风格的跟驰模型跟车跟车间距变化曲线;
图15是不同风格的跟驰模型跟车相对速度变化曲线;
图16是不同风格的跟驰模型跟车加速度变化曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,具体流程如图1所示:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法对进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
在本实施例中,详细的方法步骤如下所述:
步骤S1.1:选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据用来分析处理,由于NGSIM中的原始数据是由视频处理得来,存在一定的异常值和测量误差,为了得到较为精确的车辆行驶数据需要对原始数据进行加工处理。本实施例针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理。选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。图2、3、4分别展示了测试车在一段时间内的纵向位置、车辆行驶速度和行驶加速度的平滑效果图。
步骤S1.2:NGSIM数据集中包含了测量时段内所有车辆的行驶信息,为了得到所需的车辆跟驰数据,需要对原始数据进行筛选,定义以下数据的筛选规则:
(1)车辆类型选择为小型车,即v_Class=2;原始数据集中包含了小型车、大型车和摩托车的行车数据,不同类型车的跟驰行为表现可能不完全相同,通过观察发现数据集中小型车的数据占绝大多数,故选择小型车做为研究对象,保证能够筛选出足够的数据量。
(2)跟车对的持续时长大于15s;该规则为了保证主车在一定时段内处于稳定的跟车状态,从而得到足够的跟驰数据。
(3)跟车对中,目标车和主车之间的车头间距小于150ft(英尺),约45.72m,即Space_Headway(车头间距)<=150;该条规则保证主车处于跟驰状态,不会因为两车之间的距离太大而处于自由行驶状态。
(4)跟车时,主车和目标车的车速大于0;保证车辆都处于行驶状态,而不会出现中途停车的情况,影响对跟驰行为的分析。
(5)只选择行车道上的跟车对;I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,为了保证所研究的车辆具有相似的驾驶行为,所以只选择Lane_ID为1-5的跟车数据。
在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为验证数据。
步骤S2.1:本研究选择相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性。采用K-means聚类算法对步骤1处理所得的跟车对数据把驾驶风格聚为激进型和保守型两类。聚类结果示意图见图2,驾驶风格聚类结果如表1所示。
Figure DEST_PATH_IMAGE021
步骤S2.2:对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m。
步骤S3:基于SVM搭建驾驶风格辨识模型,并基于训练数据对模型进行训练。
步骤S4.1:所述步骤S4的具体操作如下:
步骤S4.1:强化学习状态空间和动作空间设计,状态空间选择为两车跟车间距、两车速度差和主车速度,即
Figure 493307DEST_PATH_IMAGE001
;动作空间选择为主车加速度,即
Figure 822657DEST_PATH_IMAGE002
步骤S4.2:强化学习奖励函数的设计,奖励函数:
Figure 100002_DEST_PATH_IMAGE022
其中,
Figure 693661DEST_PATH_IMAGE023
为算法运行过程中两车模拟车距,
Figure 100002_DEST_PATH_IMAGE024
为公式所示的期望跟车距离,
Figure 972327DEST_PATH_IMAGE025
碰撞惩罚因子,
Figure 100002_DEST_PATH_IMAGE026
为碰撞检测标识,在算法运行过程中发生碰撞即
Figure 510231DEST_PATH_IMAGE008
时,
Figure 61298DEST_PATH_IMAGE009
;否则
Figure 611359DEST_PATH_IMAGE010
期望跟车距离的计算如下:
Figure 100002_DEST_PATH_IMAGE027
其中,
Figure 100002_DEST_PATH_IMAGE028
k时刻主车的期望跟车距离,
Figure 869165DEST_PATH_IMAGE013
为期望车头时距,
Figure 100002_DEST_PATH_IMAGE029
为最小安全距离。
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度。
Figure 908797DEST_PATH_IMAGE015
Figure 100002_DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
为0.1s,
Figure 763139DEST_PATH_IMAGE018
t时刻主车位置,
Figure 585732DEST_PATH_IMAGE019
t时刻的主车速度,
Figure 291520DEST_PATH_IMAGE020
t时刻的主车加速度,起始时刻主车位置设为0;
步骤4.4:神经网络结构:设计Actor和Critic的神经网络结构如图6-图7所示;
Actor网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值。
Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数。Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数。
得到基于DDPG的跟驰模型框架如图8所示。
步骤S5:基于步骤S1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练。整个训练过程中的参数设置如表2所示。两种风格的跟驰模型在训练过程中的平均奖励变化曲线如图9和图10所示。
Figure DEST_PATH_IMAGE032
步骤S6.1:模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型。具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况。由图11-图13可以看出激进型的驾驶风格跟车间距更小,其均值为19.96m,而保守型驾驶风格的跟车间距均值为30.45m;激进型驾驶风格的跟车相对速度更小,其均值为0.13m/s,保守型驾驶风格的跟车相对速度均值为0.45m/s;激进型驾驶风格的跟车加速度绝对值更大,其均值为0.43m/s2,保守型驾驶风格的跟车加速度均值为0.40m/s2
步骤S6.2:在测试集中随机选择跟车对对比不同跟驰模型。把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格为激进型,参见图14-16,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本文所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。

Claims (5)

1.融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于:步骤如下:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep Deterministic PolicyGradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
2.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于:所述步骤S1中的NGSIM原始数据的处理操作如下:选取I-80路段中时段04:00p.m.-04:15 p.m.的数据为原始数据,针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理,选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。
3.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,所述步骤S1中的NGSIM原始数据的筛选操作的规则如下:
S1.1、车辆类型选择为小型车,即v_Class=2;
S1.2、跟车对的持续时长大于15s;
S1.3、跟车对中,目标车和主车之间的车头间距小于150ft(英尺),即Space_Headway(车头间距)<=150;
S1.4、跟车时,主车和目标车的车速大于0;
S1.5、I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,只选择Lane_ID为1-5行车道上的跟车对。
4.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于,所述步骤S4的具体操作如下:
步骤S4.1:强化学习状态空间和动作空间设计,状态空间选择为两车跟车间距、两车速度差和主车速度,即
Figure DEST_PATH_IMAGE002
;动作空间选择为主车加速度,即
Figure DEST_PATH_IMAGE004
步骤S4.2:强化学习奖励函数的设计,奖励函数:
Figure DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE007
为算法运行过程中两车模拟车距,
Figure DEST_PATH_IMAGE009
为公式所示的期望跟车距离,
Figure DEST_PATH_IMAGE010
碰撞惩罚因子,
Figure DEST_PATH_IMAGE012
为碰撞检测标识,在算法运行过程中发生碰撞即时,
Figure DEST_PATH_IMAGE013
;否则
Figure DEST_PATH_IMAGE014
期望跟车距离的计算如下:
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
k时刻主车的期望跟车距离,
Figure DEST_PATH_IMAGE020
为期望车头时距,
Figure DEST_PATH_IMAGE022
为最小安全距离;
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度;
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE027
为0.1s,
Figure DEST_PATH_IMAGE028
t时刻主车位置,
Figure DEST_PATH_IMAGE029
t时刻的主车速度,
Figure DEST_PATH_IMAGE030
t时刻的主车加速度,起始时刻主车位置设为0;
步骤S4.4:设计Actor和Critic的神经网络结构:
Actor神经网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值;
Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数;
Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数;
得到基于DDPG的跟驰模型框架。
5.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于,所述步骤S6的具体操作如下:
步骤S6.1、模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型,具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况;
步骤S6.2、在测试集中随机选择跟车对对比不同跟驰模型:把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本发明所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。
CN202210824663.XA 2022-07-14 2022-07-14 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 Pending CN115285135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210824663.XA CN115285135A (zh) 2022-07-14 2022-07-14 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210824663.XA CN115285135A (zh) 2022-07-14 2022-07-14 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

Publications (1)

Publication Number Publication Date
CN115285135A true CN115285135A (zh) 2022-11-04

Family

ID=83822215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210824663.XA Pending CN115285135A (zh) 2022-07-14 2022-07-14 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

Country Status (1)

Country Link
CN (1) CN115285135A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830876A (zh) * 2023-02-24 2023-03-21 天翼交通科技有限公司 交通信号控制优化方法、装置、设备及介质
CN117275240A (zh) * 2023-11-21 2023-12-22 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117302204A (zh) * 2023-11-30 2023-12-29 北京科技大学 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830876A (zh) * 2023-02-24 2023-03-21 天翼交通科技有限公司 交通信号控制优化方法、装置、设备及介质
CN117275240A (zh) * 2023-11-21 2023-12-22 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117275240B (zh) * 2023-11-21 2024-02-20 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN117302204A (zh) * 2023-11-30 2023-12-29 北京科技大学 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置
CN117302204B (zh) * 2023-11-30 2024-02-20 北京科技大学 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置

Similar Documents

Publication Publication Date Title
CN109345020B (zh) 一种完全信息下的无信号交叉口车辆驾驶行为预测方法
CN115285135A (zh) 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法
CN109213148B (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
Tang et al. A hierarchical prediction model for lane-changes based on combination of fuzzy C-means and adaptive neural network
CN112466119B (zh) 一种利用车路协同数据的汽车跟车车速预测方法及系统
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
Wirthmüller et al. Predicting the time until a vehicle changes the lane using LSTM-based recurrent neural networks
He et al. Probabilistic intention prediction and trajectory generation based on dynamic bayesian networks
CN113901718A (zh) 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN112677982B (zh) 基于驾驶员特性的车辆纵向速度规划方法
CN110956851A (zh) 一种智能网联汽车协同调度换道方法
Sun et al. DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability
CN113581182A (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN117325865A (zh) 一种lstm轨迹预测的智能车辆换道决策方法及系统
Selvaraj et al. An ML-aided reinforcement learning approach for challenging vehicle maneuvers
CN113777918A (zh) 一种数字孪生架构的汽车智能线控底盘控制方法
CN117585017A (zh) 一种自动驾驶车辆换道决策方法、装置、设备及存储介质
Bao et al. Data-driven risk-sensitive control for personalized lane change maneuvers
CN113033902B (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN117227755A (zh) 基于强化学习的复杂交通场景下自动驾驶决策方法及系统
CN113110359A (zh) 约束型智能汽车自主决策系统在线训练方法及装置
Jiang et al. A review of traffic behaviour and intelligent driving at roundabouts based on a microscopic perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination