CN115285135A - 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 - Google Patents
融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 Download PDFInfo
- Publication number
- CN115285135A CN115285135A CN202210824663.XA CN202210824663A CN115285135A CN 115285135 A CN115285135 A CN 115285135A CN 202210824663 A CN202210824663 A CN 202210824663A CN 115285135 A CN115285135 A CN 115285135A
- Authority
- CN
- China
- Prior art keywords
- following
- data
- vehicle
- model
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 title abstract description 3
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 9
- 238000012706 support-vector machine Methods 0.000 claims abstract description 9
- 230000001133 acceleration Effects 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 claims 2
- 229910002092 carbon dioxide Inorganic materials 0.000 claims 1
- 239000001569 carbon dioxide Substances 0.000 claims 1
- 238000012795 verification Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
- B60W30/16—Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
- B60W30/162—Speed limiting therefor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/04—Traffic conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
- B60W40/09—Driving style or behaviour
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/005—Handover processes
- B60W60/0051—Handover processes from occupants to vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0029—Mathematical model of the driver
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/30—Driving style
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/406—Traffic density
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2556/00—Input parameters relating to data
- B60W2556/10—Historical data
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,基于NGSIM项目实测高精度交通流数据集,设定相应的规则对原始数据进行筛选,得到符合条件的跟驰对数据,将跟车对数据分为训练数据和验证数据。基于训练数据对驾驶人的驾驶特性进行分析,同时基于支持向量机算法搭建了驾驶风格辨识模型。基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法的跟驰模型。在所搭建的训练环境中对模型进行训练得到不同驾驶风格的深度强化学习跟驰模型,基于验证数据的仿真结果显示,所搭建的跟驰模型在保证安全性和舒适性的前提下能够体现不同的驾驶特性。
Description
技术领域
本发明属于智能驾驶辅助系统技术领域,涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法。
背景技术
车辆跟驰行驶是道路交通中的常见现象,特别是在当今交通拥堵频发的城市交通中跟驰行为更为普遍。对车辆跟驰行为的研究,是智能驾驶领域单车跟驰控制和多车列队行驶控制的重要研究内容。
车辆跟驰模型作为交通流理论中的最基础性的研究之一,无论是研究单车智能还是智能网联都是不可或缺的研究内容。同时人们对智能驾驶车辆跟驰行驶不再仅仅满足于简单的实现后车车速跟随前车变化,更多的要求车辆在保证安全性、舒适性的前提下,考虑驾驶风格实现拟人化的跟驰来满足不同驾乘人的需求,该专利就是在这种背景下提出的。
发明内容
本发明公开一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,本发明将驾驶风格融入跟驰模型的研究,搭建了考虑驾驶人风格个性化跟驰模型,使得所搭建的跟驰模型能够满足不同驾乘人对智能驾驶的个性化需求,提升智能驾驶系统的接受度。
本发明所采用的技术方案是:
一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,步骤如下:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法对进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
进一步的,所述步骤S1中的NGSIM原始数据的处理操作如下:选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据为原始数据,针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理,选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。
进一步的,所述步骤S1中的NGSIM原始数据的筛选操作的规则如下:
S1.1、车辆类型选择为小型车,即v_Class=2;
S1.2、跟车对的持续时长大于15s;
S1.3、跟车对中,目标车和主车之间的车头间距小于150ft(英尺),约45.72m,即Space_Headway(车头间距)<=150。
S1.4、跟车时,主车和目标车的车速大于0;
S1.5、I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,只选择Lane_ID为1-5行车道上的跟车对。
进一步的,所述步骤S4的具体操作如下:
步骤S4.2:强化学习奖励函数的设计,奖励函数:
期望跟车距离的计算如下:
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度。
步骤S4.4:设计Actor和Critic的神经网络结构。Actor神经网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值。Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数。Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数;
得到基于DDPG的跟驰模型框架。
进一步的,所述步骤S6的具体操作如下:
步骤S6.1、模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型,具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况;
步骤S6.2、在测试集中随机选择跟车对对比不同跟驰模型:把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本发明所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。
本发明选用在国内外被广泛应用的NGSIM项目实测高精度交通流数据集,首先采用Savitzky-Golay滤波算法对采用原始数据进行滤波处理;接下来根据设定的数据提取规则对NGSIM原始数据进行筛选,得到符合条件的跟驰对数据;最后从跟车间距、跟车速度、相对速度、跟车加速度和车头时距几个方面对跟车对数据进行了统计分析,为接下来的研究提供数据支撑。
首先基于遗传算法采用模拟加速度值与实际加速度值的均方根百分比误差作为拟合优度函数标注了IDM跟驰模型;考虑安全性、舒适性和跟随性设计了MPC跟驰模型;搭建三层BP神经网络跟驰模型并完成模型训练;结合期望跟车间距设计强化学习奖励函数,搭建强化学习训练环境完成了DDPG跟车模型的训练。其次选择合适的评价指标对跟驰模型的拟人化程度进行对比分析,得到DDPG的拟人化程度最高,为接下来融合驾驶风格的跟驰模型设计提高依据。
首先选用相对速度、车头时距和跟车加速度绝对值参数表征驾驶人跟车行驶时的驾驶特性,采用K-means聚类方法实现驾驶风格的聚类分析,把驾驶风格聚为激进型和保守型两类。其次基于SVM算法搭建了驾驶风格辨识模型。最好,基于DDPG搭建了不同驾驶风格的跟驰模型,并对不同驾驶风格的跟驰模型进行了仿真分析,结果显示,本文所搭建的不同风格的跟驰模型在跟驰行驶时可以表现出不同的驾驶风格,并且其表现更接近驾驶风格辨识结果。
本发明的有益技术效果:
1)深度强化学习奖励函数设计简单,参数较少,便于整定参数,同时在奖励函数中融合不同驾驶风格。
2)本发明所涉及的融合驾驶风格的跟驰模型可以在驾驶员脱手时继续以当前驾驶员的驾驶风格驾驶车辆满足不同驾乘人对自动驾驶的个性化需求,从而提升人们对自动驾驶的接受度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法流程图;
图2是测试车在一段时间内的纵向位置的平滑效果图;
图3是测试车在一段时间内的车辆行驶速度的平滑效果图;
图4是测试车在一段时间内的行驶加速度的平滑效果图;
图5是驾驶风格聚类结果图;
图6是Actor神经网络结构示意图;
图7是Critic神经网络结构示意图;
图8是基于DDPG的跟驰模型框架;
图9是激进型驾驶风格模型训练奖励变化曲线;
图10是保守型驾驶风格模型训练奖励变化曲线;
图11是不同风格的跟驰模型跟车距离分布图;
图12是不同风格的跟驰模型跟车相对速度分布图;
图13是不同风格的跟驰模型跟车加速度分布图;
图14是不同风格的跟驰模型跟车跟车间距变化曲线;
图15是不同风格的跟驰模型跟车相对速度变化曲线;
图16是不同风格的跟驰模型跟车加速度变化曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,具体流程如图1所示:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法对进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
在本实施例中,详细的方法步骤如下所述:
步骤S1.1:选取I-80路段中时段04:00 p.m.-04:15 p.m.的数据用来分析处理,由于NGSIM中的原始数据是由视频处理得来,存在一定的异常值和测量误差,为了得到较为精确的车辆行驶数据需要对原始数据进行加工处理。本实施例针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理。选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。图2、3、4分别展示了测试车在一段时间内的纵向位置、车辆行驶速度和行驶加速度的平滑效果图。
步骤S1.2:NGSIM数据集中包含了测量时段内所有车辆的行驶信息,为了得到所需的车辆跟驰数据,需要对原始数据进行筛选,定义以下数据的筛选规则:
(1)车辆类型选择为小型车,即v_Class=2;原始数据集中包含了小型车、大型车和摩托车的行车数据,不同类型车的跟驰行为表现可能不完全相同,通过观察发现数据集中小型车的数据占绝大多数,故选择小型车做为研究对象,保证能够筛选出足够的数据量。
(2)跟车对的持续时长大于15s;该规则为了保证主车在一定时段内处于稳定的跟车状态,从而得到足够的跟驰数据。
(3)跟车对中,目标车和主车之间的车头间距小于150ft(英尺),约45.72m,即Space_Headway(车头间距)<=150;该条规则保证主车处于跟驰状态,不会因为两车之间的距离太大而处于自由行驶状态。
(4)跟车时,主车和目标车的车速大于0;保证车辆都处于行驶状态,而不会出现中途停车的情况,影响对跟驰行为的分析。
(5)只选择行车道上的跟车对;I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,为了保证所研究的车辆具有相似的驾驶行为,所以只选择Lane_ID为1-5的跟车数据。
在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为验证数据。
步骤S2.1:本研究选择相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性。采用K-means聚类算法对步骤1处理所得的跟车对数据把驾驶风格聚为激进型和保守型两类。聚类结果示意图见图2,驾驶风格聚类结果如表1所示。
步骤S2.2:对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m。
步骤S3:基于SVM搭建驾驶风格辨识模型,并基于训练数据对模型进行训练。
步骤S4.1:所述步骤S4的具体操作如下:
步骤S4.2:强化学习奖励函数的设计,奖励函数:
期望跟车距离的计算如下:
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度。
步骤4.4:神经网络结构:设计Actor和Critic的神经网络结构如图6-图7所示;
Actor网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值。
Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数。Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数。
得到基于DDPG的跟驰模型框架如图8所示。
步骤S5:基于步骤S1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练。整个训练过程中的参数设置如表2所示。两种风格的跟驰模型在训练过程中的平均奖励变化曲线如图9和图10所示。
步骤S6.1:模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型。具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况。由图11-图13可以看出激进型的驾驶风格跟车间距更小,其均值为19.96m,而保守型驾驶风格的跟车间距均值为30.45m;激进型驾驶风格的跟车相对速度更小,其均值为0.13m/s,保守型驾驶风格的跟车相对速度均值为0.45m/s;激进型驾驶风格的跟车加速度绝对值更大,其均值为0.43m/s2,保守型驾驶风格的跟车加速度均值为0.40m/s2。
步骤S6.2:在测试集中随机选择跟车对对比不同跟驰模型。把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格为激进型,参见图14-16,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本文所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。
Claims (5)
1.融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于:步骤如下:
步骤S1:基于NGSIM(Next Generation Simulation)项目实测高精度交通流数据集,设定相应的规则对原始数据进行处理并筛选,得到符合条件的跟驰对数据,在处理得到的数据集中随机选取70%的跟车对数据做为训练数据,其余的跟车对数据做为测试数据;
步骤S2:以相对速度、车头时距和跟车加速度绝对值表征驾驶人的驾驶特性,采用K-means聚类算法进行驾驶风格聚类,分为激进型和保守型两类;对不同风格的跟车数据做统计分析,得到不同驾驶风格下的最小跟车间距值,激进型的驾驶风格为4.09m,而保守型的驾驶风格为5.63m;
步骤S3:基于支持向量机(Support Vector Machine, SVM)算法搭建了驾驶风格辨识模型;
步骤S4:基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法(Deep Deterministic PolicyGradient, DDPG)的跟驰模型;
步骤S5:搭建仿真环境、设置参数,在所搭建的仿真环境中,基于步骤1所得的训练数据对DDPG跟驰模型进行训练,训练过程中的每一幕随机选择训练数据中的跟车对训练模型,当发生碰撞或者跟车事件结束时,当前幕结束,重新开始下一幕的训练;得到不同驾驶风格的深度强化学习跟驰模型;
步骤S6:基于测试数据测试模型。
2.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于:所述步骤S1中的NGSIM原始数据的处理操作如下:选取I-80路段中时段04:00p.m.-04:15 p.m.的数据为原始数据,针对原始数据中的噪声采用Savitzky-Golay滤波算法对原始数据进行平滑处理,选取Savitzky-Golay滤波器的窗口长度为21,多项式阶数为3对原始数据进行平滑处理。
3.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,所述步骤S1中的NGSIM原始数据的筛选操作的规则如下:
S1.1、车辆类型选择为小型车,即v_Class=2;
S1.2、跟车对的持续时长大于15s;
S1.3、跟车对中,目标车和主车之间的车头间距小于150ft(英尺),即Space_Headway(车头间距)<=150;
S1.4、跟车时,主车和目标车的车速大于0;
S1.5、I-80检测路段中,1-5为行车道,6为集散车道,7为入口匝道,8为出口匝道,只选择Lane_ID为1-5行车道上的跟车对。
4.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于,所述步骤S4的具体操作如下:
步骤S4.2:强化学习奖励函数的设计,奖励函数:
期望跟车距离的计算如下:
步骤S4.3:环境更新策略的设计,把主车运动看作质点的运动,根据如下的质点运动学模型计算得到主车位置和主车速度;
步骤S4.4:设计Actor和Critic的神经网络结构:
Actor神经网络的输入为相对距离、相对速度和主车速度,输出为主车加速度,因为中间层和输出层应用了tanh激活函数,把输出和系数δ相乘得到模拟加速度值;
Critic网络的输入为相对距离、相对速度和主车速度和Actor网络的输出,输出为Q值函数;
Actor和Critic网络的中间层均有30个神经元,除了Actor网络的中间层和输出层应用了tanh激活函数,其他的层层之间均采用ReLU激活函数;
得到基于DDPG的跟驰模型框架。
5.根据权利要求1所述的融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,其特征在于,所述步骤S6的具体操作如下:
步骤S6.1、模型测试:为了对比不同驾驶风格的跟驰模型之间的差异,在测试数据上测试了不同风格的跟驰模型,具体对比了不同风格跟驰模型在测试数据上的跟车间距、跟车相对速度和跟车加速度的分布情况;
步骤S6.2、在测试集中随机选择跟车对对比不同跟驰模型:把所选跟车对输入步骤S3中所建立的驾驶风格辨识模型,得到其驾驶风格,对比NGSIM驾驶数据和不同风格的跟驰模型可以看出,本发明所搭建的激进型跟驰模型相较于保守型跟驰模型在跟车间距、跟车相对速度和跟车加速度上的表现都更接近于NGSIM驾驶数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824663.XA CN115285135A (zh) | 2022-07-14 | 2022-07-14 | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824663.XA CN115285135A (zh) | 2022-07-14 | 2022-07-14 | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115285135A true CN115285135A (zh) | 2022-11-04 |
Family
ID=83822215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210824663.XA Pending CN115285135A (zh) | 2022-07-14 | 2022-07-14 | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115285135A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830876A (zh) * | 2023-02-24 | 2023-03-21 | 天翼交通科技有限公司 | 交通信号控制优化方法、装置、设备及介质 |
CN117275240A (zh) * | 2023-11-21 | 2023-12-22 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117302204A (zh) * | 2023-11-30 | 2023-12-29 | 北京科技大学 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
-
2022
- 2022-07-14 CN CN202210824663.XA patent/CN115285135A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830876A (zh) * | 2023-02-24 | 2023-03-21 | 天翼交通科技有限公司 | 交通信号控制优化方法、装置、设备及介质 |
CN117275240A (zh) * | 2023-11-21 | 2023-12-22 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117275240B (zh) * | 2023-11-21 | 2024-02-20 | 之江实验室 | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
CN117302204A (zh) * | 2023-11-30 | 2023-12-29 | 北京科技大学 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
CN117302204B (zh) * | 2023-11-30 | 2024-02-20 | 北京科技大学 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345020B (zh) | 一种完全信息下的无信号交叉口车辆驾驶行为预测方法 | |
CN115285135A (zh) | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 | |
CN109213148B (zh) | 一种基于深度强化学习的车辆低速跟驰决策方法 | |
CN112347567A (zh) | 一种车辆意图和轨迹预测的方法 | |
Tang et al. | A hierarchical prediction model for lane-changes based on combination of fuzzy C-means and adaptive neural network | |
CN112466119B (zh) | 一种利用车路协同数据的汽车跟车车速预测方法及系统 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
Wirthmüller et al. | Predicting the time until a vehicle changes the lane using LSTM-based recurrent neural networks | |
He et al. | Probabilistic intention prediction and trajectory generation based on dynamic bayesian networks | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
CN114312830A (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN112677982B (zh) | 基于驾驶员特性的车辆纵向速度规划方法 | |
CN110956851A (zh) | 一种智能网联汽车协同调度换道方法 | |
Sun et al. | DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability | |
CN113581182A (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
US20230162539A1 (en) | Driving decision-making method and apparatus and chip | |
CN117325865A (zh) | 一种lstm轨迹预测的智能车辆换道决策方法及系统 | |
Selvaraj et al. | An ML-aided reinforcement learning approach for challenging vehicle maneuvers | |
CN113777918A (zh) | 一种数字孪生架构的汽车智能线控底盘控制方法 | |
CN117585017A (zh) | 一种自动驾驶车辆换道决策方法、装置、设备及存储介质 | |
Bao et al. | Data-driven risk-sensitive control for personalized lane change maneuvers | |
CN113033902B (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
CN117227755A (zh) | 基于强化学习的复杂交通场景下自动驾驶决策方法及系统 | |
CN113110359A (zh) | 约束型智能汽车自主决策系统在线训练方法及装置 | |
Jiang et al. | A review of traffic behaviour and intelligent driving at roundabouts based on a microscopic perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |