CN113581182B - 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 - Google Patents
基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 Download PDFInfo
- Publication number
- CN113581182B CN113581182B CN202111045148.3A CN202111045148A CN113581182B CN 113581182 B CN113581182 B CN 113581182B CN 202111045148 A CN202111045148 A CN 202111045148A CN 113581182 B CN113581182 B CN 113581182B
- Authority
- CN
- China
- Prior art keywords
- lane
- model
- vehicle
- changing
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 60
- 230000009471 action Effects 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000012937 correction Methods 0.000 claims abstract description 21
- 230000007704 transition Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 11
- 230000001133 acceleration Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 7
- 230000035484 reaction time Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000036461 convulsion Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000033001 locomotion Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/06—Direction of travel
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/12—Lateral speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4042—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4043—Lateral speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4044—Direction of movement, e.g. backwards
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种基于强化学习的自动驾驶车辆换道轨迹规划方法及系统,涉及自动驾驶技术领域,该方法包括:模型构建步骤:依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型;模型训练步骤:构建完成相应模型后,采集训练数据,训练强化学习模型,再对各模型进行相应测试,以实现在不同场景下的换道轨迹规划。本发明能够有效地提高换道过程中的安全性和效率,进而有利于整体交通流的通行效率。
Description
技术领域
本发明涉及自动驾驶技术领域,具体地,涉及一种基于强化学习的自动驾驶车辆换道轨迹规划方法及系统。
背景技术
车辆换道对道路交通安全和效率有着很大的影响,而人为因素(如注意力分散或驾驶经验不足等)是导致不合理换道的主要原因之一。近年来,随着自动驾驶技术的发展,其在改善交通系统的安全与运行上展现出了巨大的潜力。
自动驾驶车辆的换道规划模型作为交通领域的研究热点,近年来取得了丰富的研究成果,总体上可以分为两大类:传统换道模型和基于机器学习的换道模型。传统换道模型通常分成两个步骤,即轨迹规划与轨迹跟踪,首先规划出一条从当前位置到目标位置的参考曲线,然后通过跟踪控制器输出动作指令,以保证车辆能够沿着预定的轨迹线行驶。根据不同的轨迹规划方法,又可以分为静态轨迹规划方法和动态轨迹规划方法。静态轨迹规划方法在换道开始之前生成一条完整的轨迹,并在整个换道过程中不再改变。这类研究通常假设在换道过程中周围车辆的速度没有变化,这显然与实际不太相符。换道车很可能会因为未能对周围环境的变化做出及时反应而导致换道失败,甚至是与周边车辆的碰撞。动态轨迹规划方法则可以根据最新的交通状况实时更换换道轨迹,具有更高的灵活性。在完成轨迹规划之后,通常需要求解一系列复杂的约束优化模型来获得车辆的控制动作(如加速度、角加速度等),模型设计较为复杂,计算效率也不高。机器学习中的强化学习算法是处理车辆控制问题的另一种方法。换道是一个时序问题,需要一系列动作才能到达目的地,而且当前动作的表现将会影响最终目标,强化学习算法非常适合处理这一类问题。与传统换道模型问题不同的是,它通常将轨迹规划和轨迹控制融合在一个模型中,在换道过程中不需要建立和计算复杂的约束优化模型,训练好的强化学习模型将当前状态作为输入,然后直接输出控制动作。现有的基于强化学习的换道模型往往只控制车辆的单一动作,需要与传统模型相结合使用才能完成换道过程。过于简单的奖励函数也会降低模型在车辆换道这种连续控制问题中的学习能力。此外,仅仅通过奖励函数并不能保证完全的安全,模型依旧可能出现不安全动作,碰撞风险提高。
且现有的自动驾驶车辆换道轨迹规划方法,模型设计较为复杂,计算效率不高,存在碰撞风险,无法很好的在实际车辆控制工程中应用。
公开号为CN111391848A的发明专利,公开了一种自动驾驶车辆换道方法,建立了能够反映人类的耐心和礼让的心理因素模型,并将其融入到换道决策中的自动驾驶车辆换道方法。构建反映自动驾驶车辆跟随前方较慢车辆时的耐心程度的模型和礼让程度的模型,判定是否换道。考虑人类驾驶心理因素的自动驾驶车辆换道决策方法,构建一种能够考虑心理因素的换道决策框架。
公开号为CN112356834A的发明专利,公开了一种自动驾驶车辆换道控制方法、装置、车辆及存储介质,包括获取车辆的导航信息;在检测到导航信息中存在换道区间信息时,确定换道区间信息对应的目标车道;基于当前道路信息确定换道区间对应的目标车道限速值;基于目标车道限速值,控制车辆在目标车道上执行换道。
发明内容
针对现有技术中的缺陷,本发明提供一种基于强化学习的自动驾驶车辆换道轨迹规划方法及系统。
根据本发明提供的一种基于强化学习的自动驾驶车辆换道轨迹规划方法及系统,所述方案如下:
第一方面,提供了一种基于强化学习的自动驾驶车辆换道轨迹规划方法,所述方法包括:
模型构建步骤:依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型;
模型训练步骤:构建完成相应模型后,采集训练数据,训练强化学习模型,再对各模型进行相应测试,以实现在不同场景下的换道轨迹规划。
优选的,所述模型构建步骤中包括:
步骤S1.1:状态空间构建:在换道过程中,换道车辆的行为与其周围车辆密切相关,通过它们的速度、方向以及位置在内的信息生成状态空间;
步骤S1.2:动作空间构建:换道车状态的变化由它的速度和方向角决定;
步骤S1.3:状态转移模型构建:状态转换模型表示换道车在当前状态下执行了动作之后转移到下一个新状态;
步骤S1.4:奖励函数构建:设计合理的奖励函数评估智能体动作,在换道场景中,换道车为换道做好准备,安全移动至目标车道,并与其前车保持适当的车头时距;
步骤S1.5:安全修正模型构建:对模型中得到的动作进行适当的修正,保证安全性。
优选的,所述步骤S1.1包括:
通过速度、方向以及位置在内的相关信息生成状态空间S,状态空间S包括换道车SV的速度v以及方向角θ,到目标车道中心线的横向距离Xdis,从SV车头到目标车道前车LV车尾的纵向距离SLV,从SV车头到原车道前车LVO车尾的纵向距离SLVO,SV与LV的相对速度RLV,与LVO的相对速度RLVO,即S=(v,θ,Xdis,SLV,SLVO,RLV,RLVO)。
优选的,所述步骤S1.2包括:
换道车学习如何调整速度和方向角以到达目的地,因此动作空间A由加速度acc和偏航加速度ayaw组成,这两者都是连续性的动作,即A=(acc,ayaw)。
优选的,所述步骤S1.3包括:
状态转换模型表示换道车在当前状态下执行了动作之后将如何转移到下一个新状态,在此简化为以下模型:
其中,vt、θt、yt、xt分别是换道车在t时刻的速度、方向角、纵向坐标、横向坐标,vt+1、θt+1、yt+1、xt+1是换道车在t+1时刻的速度、方向角、纵向坐标、横向坐标,Δt为时间步长。
优选的,所述步骤S1.4包括:
为使换道车安全舒适转移至目标车道,奖励函数是舒适度Fjerk、安全性Fsafe、换道间隙Fgap、效率Fefficiency和车头时距Fheadway五个特征的线性组合,即:
R=w1Fjerk+w2Fsafe+w3Fgap+w4Fefficiency+w5Fheadway
式中w1,w2,w3,w4,w5分别是五个特征的权重值。
优选的,所述步骤S1.5包括:
在换道过程中,如果换道车仍在原车道,则应同时保持与原车道前车以及目标车道前车的安全间距;
如果换道车已经进入目标车道,那么就只需要保持与目标车道前车的安全间距;
如果模型无法找到可行解,那么将直接取最小加速度。
优选的,所述模型训练步骤中包括:
步骤S2.1:训练数据采集:采集真实的换道场景数据,每个换道场景中应包括换道车、原车道前车、目标车道前车与目标车道后车的轨迹数据,将提取出来的换道场景数据按某种比例分为训练集和测试集;
步骤S2.2:训练强化学习模型:确定强化学习模型初始参数,主要包括:奖励函数的权重、内部神经网络隐含层的层数、每个隐含层神经元的个数、每层的激活函数、学习率、经验存储容量、最小训练样本以及奖励折扣;
确定安全修正模型中的参数,主要包括最小速度、最大速度以及反应时间;赋予强化学习模型内部神经网络连接权重初始值,通过一定回合数的训练,更新网络参数,直到模型达到收敛。
步骤S2.3:模型测试:将训练好的模型用测试集进行测试,如果在不同换道场景中能够实现安全高效的换道,则模型能接受;
如果未能实现换道,则应回到步骤S2.2,增加训练回合数,或者调整强化学习模型初始参数,重新训练,直至模型能接受为止。
第二方面,提供了一种基于强化学习的自动驾驶车辆换道轨迹规划系统,所述系统包括:
模型构建模块:依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型;
模型训练模块:构建完成相应模型后,采集训练数据,训练并强化学习模型,在对各模型进行相应测试,以实现在不同场景下的换道轨迹规划。
优选的,所述模型构建模块包括:
模块M1.1:状态空间构建:在换道过程中,换道车辆的行为与其周围车辆密切相关,通过它们的速度、方向以及位置在内的信息生成状态空间;
模块M1.2:动作空间构建:换道车状态的变化由它的速度和方向角决定;
模块M1.3:状态转移模型构建:状态转换模型表示换道车在当前状态下执行了动作之后转移到下一个新状态;
模块M1.4:奖励函数构建:设计合理的奖励函数评估智能体动作,在换道场景中,换道车为换道做好准备,安全移动至目标车道,并与其前车保持适当的车头时距;
模块M1.5:安全修正模型构建:对模型中得到的动作进行适当的修正,保证安全性。
所述模型训练步骤包括:
模块M2.1:训练数据采集:采集真实的换道场景数据,每个换道场景中应包括换道车、原车道前车、目标车道前车与目标车道后车的轨迹数据,将提取出来的换道场景数据按某种比例分为训练集和测试集;
模块M2.2:训练强化学习模型:确定强化学习模型初始参数,主要包括:奖励函数的权重、内部神经网络隐含层的层数、每个隐含层神经元的个数、每层的激活函数、学习率、经验存储容量、最小训练样本以及奖励折扣;
确定安全修正模型中的参数,主要包括最小速度、最大速度以及反应时间;赋予强化学习模型内部神经网络连接权重初始值,通过一定回合数的训练,更新网络参数,直到模型达到收敛。
模块M2.3:模型测试:将训练好的模型用测试集进行测试,如果在不同换道场景中能够实现安全高效的换道,则模型能接受;
如果未能实现换道,则应回到模块M2.2,增加训练回合数,或者调整强化学习模型初始参数,重新训练,直至模型能接受为止。
与现有技术相比,本发明具有如下的有益效果:
1、本发明能够同时控制换道车的横向运动与纵向运动,实现安全高效的换道;
2、本发明根据换道车及其周边车辆的速度、方向、位置信息生成状态空间,作为模型输入,直接输出车辆的加速度和偏航加速度,从而控制车辆在换道过程中的动作;
3、综合考虑换道过程中的安全性、效率、换道间隙、车头时距和舒适性等因素构建奖励函数,作为车辆换道动作的评估标准;并结合一个安全修正模型,对强化模型生成的动作进行检验和修正,以确保在换道过程中不会发生碰撞;最后使用真实换道场景中的轨迹数据对模型进行训练;有效地提高换道过程中的安全性和效率,进而有利于整体交通流的通行效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明整体结构示意图;
图2为本发明流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于强化学习的自动驾驶车辆换道轨迹规划方法,考虑到实际项目中对自动驾驶车辆换道的安全和效率有着较高的要求,因此提出一种相对于传统的轨迹规划和轨迹跟踪的方法碰撞风险更低、效率更高的基于强化学习算法的换道模型,参照图1和图2所示,该方法具体包括:
第一步:构建模型,依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型,具体步骤如下:
状态空间:在换道过程中,换道车辆的行为与其周围车辆密切相关,通过它们的速度、方向、位置等信息生成状态空间S;状态空间S包括换道车SV的速度v,方向角θ,到目标车道中心线的横向距离Xdis,从SV车头到目标车道前车LV车尾的纵向距离SLV,从SV车头到原车道前车LVO车尾的纵向距离SLVO,SV与LV的相对速度RLV,与LVO的相对速度RLVO,即S=(v,θ,Xdis,SLV,SLVO,RLV,RLVO)。
动作空间:换道车状态的变化由它的速度v和方向角θ决定。换道车应该学习如何调整其速度和方向角以到达目的地,因此动作空间A由加速度acc和偏航加速度ayaw组成,二者为连续性动作,即A=(acc,ayaw),其中acc∈[-3m/s2,3m/s2],ayaw∈[-1°,1°]。
状态转移空间:状态转换模型表示换道车在当前状态下执行了动作之后将如何转移到下一个新状态,在此可以简化为以下模型:
其中,vt、θt、yt、xt分别是换道车在t时刻的速度、方向角、纵向坐标、横向坐标,vt+1、θt+1、yt+1、xt+1是换道车在t+1时刻的速度、方向角、纵向坐标、横向坐标。
奖励函数:在强化学习算法中,奖励函数是评估智能体动作的唯一衡量标准。因此,设计一个合理的奖励函数对于智能体的训练至关重要。在本研究的换道场景中,换道车应当能够迅速为换道做好准备,安全舒适地移动至目标车道,并与其前车保持适当的车头时距。奖励函数是舒适度、安全性、换道间隙、效率和车头时距五个特征的线性组合。
舒适度通常取决于加速度和偏航加速度的变化率,换道过程中应当尽可能地保持平稳,以减少对驾驶员和乘客舒适度的影响。舒适度特征:
acct和acct-1是换道车在t时刻和t-1时刻的加速度,ayawt和ayawt-1是换道车在t时刻和t-1时刻的偏航加速度。
安全性特征将由碰撞时间(Time to Collision,TTC)决定,采用3s作为TTC阈值:
换道车在做出换道决策并确定目标间隙后,应尽快调整速度以开始执行换道。间隙特征由基于与目标车道前车的间隙距离SLY构建,式中的2.5m是开始换道的阈值。
换道的最终目标是到达目标车道的中心线。因此,换道效率特征取决于换道车与目标车道中心线的横向距离。车道宽度取3.6m,当|Xdis|≤5.4m时表示换道车的移动方向正确;当|Xdis|>5.4m表示换道车向相反方向移动并超出了车道界限,额为加上了-1作为惩罚。
车辆与前车保持一个安全但较小的车头时距将对整个交通流量的运行产生积极的影响,并提高道路的通行能力。在换道过程中,换道车应当保持适当的车头时距,以减少换道对交通流量的影响。在本研究中,最优车头时距是从实际驾驶数据中得出的。通过对所提取的换道场景数据的分析,发现车头时距h的自然对数能够较好的符合高斯分布,R-square值为0.985。最大概率出现在自然对数值为0.2738,即车头时距为1.32s的时候。因此,将1.32s作为最优车头时距,构建车头时距特征:
Fheadway(h)=e-|1.32-h|,h>0
在定义了五个特征之后,奖励函数可以构造为:
R=w1Fjerk+w2Fsafe+w3Fgap+w4Fefficiency+w5Fheadway
式中w1,w2,w3,w4,w5分别是五个特征的权重值。
安全修正模型:强化学习并不能保证完全的安全性。尽管奖励函数中包含了安全性特征,但是这仅仅是一个软约束,在学习过程中仍会出现不安全的动作。因此,需要对模型中得到的动作进行适当的修正,从而避免碰撞的发生。在这里,我们考虑在最糟糕情况下的安全修正模型,即前车如果突然急刹车,换道车能够在碰撞发生之前停下来。
min accSM 2
accmin≤accRL+accSM≤accmax
accRL:表示强化学习模型中得出的加速度值;
accSM:表示安全修正模型计算出的加速度修正值;
LLVO、LLV:分别表示原车道前车LVO、目标车道前车LV的车辆长度;
Δt:表示时间步长;
分别表示原车道前车LVO、目标车道前车LV、换道车SV在t时刻的车头纵向坐标;
分别表示原车道前车LVO、目标车道前车LV、换道车SV在t时刻的速度;
分别表示换道车SV在t-1时刻与t时刻的方向角;
表示换道车SV在t-1时刻的车头纵向坐标;
表示换道车SV在t-1时刻的速度;/>表示换道车SV在t时刻的速度;
τ:表示反应时间;
accmin、accmax:分别表示最小加速度、最大加速度;
vmin、vmax:分别表示最小速度、最大速度;
在换道过程中,如果换道车仍在原车道,则应同时满足所有约束要求;如果换道车已经进入目标车道,那么需要满足除约束1之外的所有约束要求。如果上述模型无法找到可行解,那么将直接取最小加速度。
第二步:训练换道模型并测试,具体步骤如下:
1、训练数据采集:采集真实的换道场景数据,每个换道场景中应包括换道车、原车道前车、目标车道前车与目标车道后车的轨迹数据,将提取出来的换道场景数据按某种比例(本实施例中采用3:1)分为训练集和测试集;训练集用于训练强化学习模型,测试集用于测试训练好的模型性能。
2、训练强化学习模型:确定强化学习模型初始参数,主要包括:奖励函数的权重、内部神经网络隐含层的层数、每个隐含层神经元的个数、每层的激活函数、学习率、经验存储容量、最小训练样本以及奖励折扣;确定安全修正模型中的参数,主要包括最小速度、最大速度以及反应时间;赋予强化学习模型内部神经网络连接权重初始值,通过一定回合数(每一回合代表训练集中的一个换道场景)的训练,更新网络参数,直到模型达到收敛。
3、模型测试:运用上一步骤中的方法,调整不同强化学习模型的参数,训练多个模型,根据模型的收敛效果,选出最优参数组合。
4、将训练好的模型用测试集进行测试,性能达到要求则训练结束:
如果在不同换道场景中能够实现安全高效的换道,则模型能接受;
如果未能实现换道,则应回到上一步骤中,增加训练回合数,或者调整强化学习模型初始参数,重新训练,直至模型能接受为止。
接下来,对本发明进行更为具体的说明。
以下面具体的实施例来说明该方法可以实现自动驾驶车辆安全高效的换道。实例中的数据来自美国FHWA搜集的美国高速公路行车数据NGSIM(Next GenerationSimulation)数据集,本例中用到的是其中的US101数据集。该数据集记录了洛杉矶好莱坞高速公路2005年6月15日上午7:50-8:35的驾驶轨迹数据。
首先从US101数据集中提取出422个换道场景数据,每个换道场景数据都包括换道车SV、原车道前车LVO、目标车道前车LV和后车FV四辆车的轨迹数据。将换道场景数据按照3:1的比例分为训练集和测试集。然后按照第二步的方法,训练强化学习模型。在训练过程中,LVO和LV将直接使用实际数据,FV的数据只是用来判断能否开始执行换道,换道开始之后将不再考虑。这是因为在变道开始后,FV的行为会随着SV动作的改变而变化,采用其原始数据显然是不恰当的。在t=0时刻,换道车SV将按照实际数据进行初始化,包括其位置坐标、速度、方向角等,在之后的每一个时刻,将采集SV的当前状态,然后由强化学习模型生成加速度和偏航加速度,再计算奖励值,直至一个场景结束,如图2所示。之后,环境将使用下一个场景的数据重新初始化。观察训练过程中奖励值的变化。当奖励值的变化趋势比较平稳,趋于收敛时,模型训练完成。相关模型参数如下表1所示。
表1模型参数取值
名称 | 值 |
演员网络学习率 | 0.0005 |
演员网络隐含层数 | 2 |
演员网络隐含层神经元数 | 30 |
评论家网络学习率 | 0.001 |
评论家网络隐含层数 | 1 |
评论家网络隐含层神经元数 | 30 |
经验存储容量 | 20000 |
最小训练样本 | 1024 |
奖励折扣 | 0.98 |
训练回合数 | 1500 |
奖励函数权重 | 1,1,1,2,1 |
时间步长 | 0.1s |
最小速度 | 1m/s |
最小速度 | 25m/s |
反应时间 | 0.7s |
将训练好的模型用测试集进行测试,结果如下表2所示,安全性评估指标选用时间综合碰撞时间(Time Integrated Time-to-collision,TIT),能够同时反应碰撞风险的严重性和持续时长。本发明中的模型能够在不同场景中实现安全高效的换道,换道持续时间较短,并在换道过程中与前车保持较小的车头时距,有利于整体交通流的通行效率。
表2测试结果表
本发明实施例提供了一种基于强化学习的自动驾驶车辆换道轨迹规划方法及系统,根据换道车及其周边车辆的速度、方向、位置信息生成状态空间,作为模型输入,直接输出车辆的加速度和偏航加速度,从而控制车辆在换道过程中的动作。首先综合考虑换道过程中的安全性、效率、换道间隙、车头时距和舒适性等因素构建奖励函数,作为车辆换道动作的评估标准。然后结合一个安全修正模型,对强化模型生成的动作进行检验和修正,以确保在换道过程中不会发生碰撞。最后使用真实换道场景中的轨迹数据对模型进行训练。相比传统换道方法,该方法模型构建简单,计算效率较高,且能够提高换道过程中的安全性。因此,本发明提出的方法能够实现自动驾驶车辆安全高效的换道,且适合于实际应用。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (5)
1.一种基于强化学习的自动驾驶车辆换道轨迹规划方法,其特征在于,包括:
模型构建步骤:依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型;
模型训练步骤:构建完成相应模型后,采集训练数据,训练强化学习模型,再对各模型进行相应测试,以实现在不同场景下的换道轨迹规划;
所述模型构建步骤中包括:
步骤S1.1:状态空间构建:在换道过程中,换道车辆的行为与其周围车辆密切相关,通过它们的速度、方向以及位置在内的信息生成状态空间;
步骤S1.2:动作空间构建:换道车状态的变化由它的速度和方向角决定;
步骤S1.3:状态转移模型构建:状态转换模型表示换道车在当前状态下执行了动作之后转移到下一个新状态;
步骤S1.4:奖励函数构建:设计合理的奖励函数评估智能体动作,在换道场景中,换道车为换道做好准备,安全移动至目标车道,并与其前车保持适当的车头时距;
步骤S1.5:安全修正模型构建:对模型中得到的动作进行适当的修正,保证安全性;
所述步骤S1.4包括:
为使换道车安全舒适转移至目标车道,奖励函数是舒适度Fjerk、安全性Fsafe、换道间隙Fgap、效率Fefficiency和车头时距Fheadway五个特征的线性组合,即:
R=w1Fjerk+w2Fsafe+w3Fgap+w4Fefficiency+w5Fheadway
式中w1,w2,w3,w4,w5分别是五个特征的权重值;
其中,舒适度特征:
acct和acct-1是换道车在t时刻和t-1时刻的加速度,ayawt和ayawt-1是换道车在t时刻和t-1时刻的偏航加速度;
安全性特征:
换道间隙特征:
效率特征:
车头时距特征:
Fheadway(h)=e-|1.32-h|,h>0;
所述步骤S1.5包括:
在换道过程中,如果换道车仍在原车道,则应同时保持与原车道前车以及目标车道前车的安全间距;
如果换道车已经进入目标车道,那么就只需要保持与目标车道前车的安全间距;
如果模型无法找到可行解,那么将直接取最小加速度;
所述模型训练步骤中包括:
步骤S2.1:训练数据采集:采集真实的换道场景数据,每个换道场景中应包括换道车、原车道前车、目标车道前车与目标车道后车的轨迹数据,将提取出来的换道场景数据按某种比例分为训练集和测试集;
步骤S2.2:训练强化学习模型:确定强化学习模型初始参数,主要包括:奖励函数的权重、内部神经网络隐含层的层数、每个隐含层神经元的个数、每层的激活函数、学习率、经验存储容量、最小训练样本以及奖励折扣;
确定安全修正模型中的参数,主要包括最小速度、最大速度以及反应时间;赋予强化学习模型内部神经网络连接权重初始值,通过一定回合数的训练,更新网络参数,直到模型达到收敛;
步骤S2.3:模型测试:将训练好的模型用测试集进行测试,如果在不同换道场景中能够实现安全高效的换道,则模型能接受;
如果未能实现换道,则应回到步骤S2.2,增加训练回合数,或者调整强化学习模型初始参数,重新训练,直至模型能接受为止。
2.根据权利要求1所述的基于强化学习的自动驾驶车辆换道轨迹规划方法,其特征在于,所述步骤S1.1包括:
通过速度、方向以及位置在内的相关信息生成状态空间S,状态空间S包括换道车SV的速度v以及方向角θ,到目标车道中心线的横向距离Xdis,从SV车头到目标车道前车LV车尾的纵向距离SLV,从SV车头到原车道前车LVO车尾的纵向距离SLVO,SV与LV的相对速度RLV,与LVO的相对速度RLVO,即S=(v,θ,Xdis,SLV,SLVO,RLV,RLVO)。
3.根据权利要求2所述的基于强化学习的自动驾驶车辆换道轨迹规划方法,其特征在于,所述步骤S1.2包括:
换道车学习如何调整速度和方向角以到达目的地,因此动作空间A由加速度acc和偏航加速度ayaw组成,这两者都是连续性的动作,即A=(acc,ayaw)。
4.根据权利要求3所述的基于强化学习的自动驾驶车辆换道轨迹规划方法,其特征在于,所述步骤S1.3包括:
状态转换模型表示换道车在当前状态下执行了动作之后将如何转移到下一个新状态,在此简化为以下模型:
其中,vt、θt、yt、xt分别是换道车在t时刻的速度、方向角、纵向坐标、横向坐标,vt+1、θt+1、yt+1、xt+1是换道车在t+1时刻的速度、方向角、纵向坐标、横向坐标,Δt为时间步长。
5.一种基于强化学习的自动驾驶车辆换道轨迹规划系统,其特征在于,包括:
模型构建模块:依次构建状态空间、动作空间、状态转移、奖励函数以及安全修正模型;
模型训练模块:构建完成相应模型后,采集训练数据,训练并强化学习模型,在对各模型进行相应测试,以实现在不同场景下的换道轨迹规划;
所述模型构建模块包括:
模块M1.1:状态空间构建:在换道过程中,换道车辆的行为与其周围车辆密切相关,通过它们的速度、方向以及位置在内的信息生成状态空间;
模块M1.2:动作空间构建:换道车状态的变化由它的速度和方向角决定;
模块M1.3:状态转移模型构建:状态转换模型表示换道车在当前状态下执行了动作之后转移到下一个新状态;
模块M1.4:奖励函数构建:设计合理的奖励函数评估智能体动作,在换道场景中,换道车为换道做好准备,安全移动至目标车道,并与其前车保持适当的车头时距;
模块M1.5:安全修正模型构建:对模型中得到的动作进行适当的修正,保证安全性;
所述步骤S1.4包括:
为使换道车安全舒适转移至目标车道,奖励函数是舒适度Fjerk、安全性Fsafe、换道间隙Fgap、效率Fefficiency和车头时距Fheadway五个特征的线性组合,即:
R=w1Fjerk+w2Fsafe+w3Fgap+w4Fefficiency+w5Fheadway
式中w1,w2,w3,w4,w5分别是五个特征的权重值;
其中,舒适度特征:
acct和acct-1是换道车在t时刻和t-1时刻的加速度,ayawt和ayawt-1是换道车在t时刻和t-1时刻的偏航加速度;
安全性特征:
换道间隙特征:
效率特征:
车头时距特征:
Fheadway(h)=e-|1.32-h|,h>0;
所述步骤S1.5包括:
在换道过程中,如果换道车仍在原车道,则应同时保持与原车道前车以及目标车道前车的安全间距;
如果换道车已经进入目标车道,那么就只需要保持与目标车道前车的安全间距;
如果模型无法找到可行解,那么将直接取最小加速度;
所述模型训练步骤包括:
模块M2.1:训练数据采集:采集真实的换道场景数据,每个换道场景中应包括换道车、原车道前车、目标车道前车与目标车道后车的轨迹数据,将提取出来的换道场景数据按某种比例分为训练集和测试集;
模块M2.2:训练强化学习模型:确定强化学习模型初始参数,主要包括:奖励函数的权重、内部神经网络隐含层的层数、每个隐含层神经元的个数、每层的激活函数、学习率、经验存储容量、最小训练样本以及奖励折扣;
确定安全修正模型中的参数,主要包括最小速度、最大速度以及反应时间;赋予强化学习模型内部神经网络连接权重初始值,通过一定回合数的训练,更新网络参数,直到模型达到收敛;
模块M2.3:模型测试:将训练好的模型用测试集进行测试,如果在不同换道场景中能够实现安全高效的换道,则模型能接受;
如果未能实现换道,则应回到模块M2.2,增加训练回合数,或者调整强化学习模型初始参数,重新训练,直至模型能接受为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045148.3A CN113581182B (zh) | 2021-09-07 | 2021-09-07 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045148.3A CN113581182B (zh) | 2021-09-07 | 2021-09-07 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113581182A CN113581182A (zh) | 2021-11-02 |
CN113581182B true CN113581182B (zh) | 2024-04-19 |
Family
ID=78241623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111045148.3A Active CN113581182B (zh) | 2021-09-07 | 2021-09-07 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113581182B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113928321B (zh) * | 2021-11-24 | 2022-08-26 | 北京联合大学 | 一种基于端到端的深度强化学习换道决策方法和装置 |
CN114386599B (zh) * | 2022-01-11 | 2023-01-31 | 北京百度网讯科技有限公司 | 训练轨迹预测模型和轨迹规划的方法和装置 |
CN115171388A (zh) * | 2022-07-20 | 2022-10-11 | 辽宁工程技术大学 | 一种智能网联车的多交叉口旅行时间协同优化方法 |
CN116331206B (zh) * | 2023-04-06 | 2023-10-20 | 上海交通大学 | 一种智能汽车安全行驶的决策方法及系统 |
CN117348415B (zh) * | 2023-11-08 | 2024-06-04 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108387242A (zh) * | 2018-02-07 | 2018-08-10 | 西南交通大学 | 自动驾驶换道准备和执行一体化轨迹规划方法 |
CN110716562A (zh) * | 2019-09-25 | 2020-01-21 | 南京航空航天大学 | 基于强化学习的无人驾驶汽车多车道行驶的决策方法 |
CN112406867A (zh) * | 2020-11-19 | 2021-02-26 | 清华大学 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
CN112937564A (zh) * | 2019-11-27 | 2021-06-11 | 初速度(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
-
2021
- 2021-09-07 CN CN202111045148.3A patent/CN113581182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108387242A (zh) * | 2018-02-07 | 2018-08-10 | 西南交通大学 | 自动驾驶换道准备和执行一体化轨迹规划方法 |
CN110716562A (zh) * | 2019-09-25 | 2020-01-21 | 南京航空航天大学 | 基于强化学习的无人驾驶汽车多车道行驶的决策方法 |
CN112937564A (zh) * | 2019-11-27 | 2021-06-11 | 初速度(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
CN112406867A (zh) * | 2020-11-19 | 2021-02-26 | 清华大学 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
Non-Patent Citations (2)
Title |
---|
基于深度迁移学习的辅助驾驶应用研究;彭希帅;《工程科技Ⅱ辑》;20200516(第2020年第6期期);全文 * |
智能车辆决策方法研究综述;胡益恺等;《上海交通大学学报》;20210407;第55卷(第8期);1035-1048 * |
Also Published As
Publication number | Publication date |
---|---|
CN113581182A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113581182B (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
Wang et al. | Harmonious lane changing via deep reinforcement learning | |
Hoel et al. | Automated speed and lane change decision making using deep reinforcement learning | |
CN103324085B (zh) | 基于监督式强化学习的最优控制方法 | |
CN109501799A (zh) | 一种车联网条件下的动态路径规划方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN110956851B (zh) | 一种智能网联汽车协同调度换道方法 | |
CN114564016A (zh) | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 | |
Hart et al. | Formulation and validation of a car-following model based on deep reinforcement learning | |
Sun et al. | DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability | |
Wu et al. | Driver lane change intention recognition based on Attention Enhanced Residual-MBi-LSTM network | |
Yan et al. | A multi-vehicle game-theoretic framework for decision making and planning of autonomous vehicles in mixed traffic | |
Wei et al. | A learning-based autonomous driver: emulate human driver's intelligence in low-speed car following | |
Shi et al. | Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization | |
Kaur et al. | Scenario-based simulation of intelligent driving functions using neural networks | |
CN115973179A (zh) | 模型训练方法、车辆控制方法、装置、电子设备及车辆 | |
Yuan et al. | From Naturalistic Traffic Data to Learning-Based Driving Policy: A Sim-to-Real Study | |
CN116224996A (zh) | 一种基于对抗强化学习的自动驾驶优化控制方法 | |
CN114954498A (zh) | 基于模仿学习初始化的强化学习换道行为规划方法及系统 | |
CN114475607A (zh) | 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质 | |
CN114148349A (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
WO2021148113A1 (en) | Computing system and method for training a traffic agent in a simulation environment | |
Zheng et al. | Feedback forecasting based deep deterministic policy gradient algorithm for car-following of autonomous vehicle | |
Tang et al. | Research on decision-making of lane-changing of automated vehicles in highway confluence area based on deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |