CN116432454A - 基于性格选择的自动驾驶汽车决策规划方法 - Google Patents

基于性格选择的自动驾驶汽车决策规划方法 Download PDF

Info

Publication number
CN116432454A
CN116432454A CN202310373435.XA CN202310373435A CN116432454A CN 116432454 A CN116432454 A CN 116432454A CN 202310373435 A CN202310373435 A CN 202310373435A CN 116432454 A CN116432454 A CN 116432454A
Authority
CN
China
Prior art keywords
vehicle
information
feature
character
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310373435.XA
Other languages
English (en)
Inventor
薛锦涛
刘而云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310373435.XA priority Critical patent/CN116432454A/zh
Publication of CN116432454A publication Critical patent/CN116432454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于性格选择的自动驾驶汽车决策规划方法。本发明提出了基于性格选择的单智能体决策规划算法SelectSVO(Select Social Value Orientation);针对传统算法只优化自身利益的问题,引入了性格偏好(Social Value Orientation)的概念,并基于性格偏好设计了动态奖励函数;针对强化学习训练时所需要的数据空间较大的问题,提出了基于线段向量的表示方法;针对多源感知信息的关联问题,提出了基于DeepSet模型和注意力机制的网络结构。本发明通过协调自身利益和他车利益的冲突问题,以提高整个交通流的性能、提升安全效能。

Description

基于性格选择的自动驾驶汽车决策规划方法
技术领域
本发明属于自动驾驶技术领域,具体涉及一种用于城市、乡村公路的基于性格选择的自动驾驶汽车规划方法。
背景技术
自动驾驶汽车是一种集成环境感知、决策规划、运动控制、语音交互和无线通信等技术的智能综合系统。它被认为将对交通系统和人类出行方式产生革命性影响,显著提高社会生产效率,是构建安全、便捷、高效、绿色、经济的现代综合交通体系的重要抓手之一。决策规划是自动驾驶汽车中的关键环节,对汽车智能化等级产生重要影响,备受业界广泛关注,并具有重要的研究意义。
而自动驾驶汽车有望提高交通安全性、减少交通拥堵、提高交通效率,无需人类驾驶,为人们带来更多的舒适和便利。自动驾驶汽车受到业界广泛关注,同时得益于计算芯片、传感器技术和人工智能技术的发展,自动驾驶汽车在近十年内得以快速发展并从概念步入实践阶段。自动驾驶汽车有望解决现有的交通问题,但仍然面临许多挑战,其中决策规划技术是关键性技术需要攻克。
目前的自动驾驶汽车决策规划技术缺乏智能化,让其像人类一样进行思考仍具有挑战性。当前,自动驾驶汽车难以应对复杂的城市道路交通场景,因为这些场景中道路结构复杂、交通流动态变化,且交通参与者的行为也具有随机性。大多数决策策略都是基于人为规则设计的,如有限状态机、场景规则等,这些规则具有良好的可解释性,但均为人工设计。然而,这些规则的定义和修改都十分困难,设定驾驶规则需要不断测试和调整,重构或微调整个逻辑框架时常需要耗费大量的人力和时间成本来维护。
目前自动驾驶车辆尚未大规模商业应用,大多数的仿真或实车测试都是从单个自动驾驶车辆视角来考虑问题,而将环境中的其他车辆考虑为人类驾驶车辆,因此单车自动驾驶决策规划设计是目前主流的方案。现有的单车驾驶算法只考虑优化自身性能,但在高密度车流的复杂场景下,这样的设计方法导致了整体交通流效率的下降,因此本发明引入性格偏好的概念设计了基于性格选择的单车驾驶算法,在优化自身性能的同时提高了整体的交通流效率。
发明内容
为了解决背景技术中的问题,本发明提供了一种用于城市、乡村公路的基于性格选择和强化学习的决策规划方法。
本发明的技术方案如下:
第一步:使用部分可观测马尔科夫决策过程对自动驾驶的行为决策过程进行建模,是一个八元组,
Figure SMS_1
其中/>
Figure SMS_2
代表智能体的状态空间,/>
Figure SMS_3
代表动作空间,P代表状态间的转移概率分布,/>
Figure SMS_4
代表奖励函数,/>
Figure SMS_5
代表状态空间,Ω代表条件观测概率分布,γ代表奖励折扣因子。
第二步:根据感知模块感知到感知范围内的其他车辆的轨迹信息,以及道路信息包括道边和道路中心线,进行感知信息处理,用以表示状态空间和观测状态空间。采用线段向量的方式对感知信息进行表示,具体的,基于线段向量的方法将地图信息预处理为线段向量,包含了道路信息和车辆的轨迹信息等;与原始数据和鸟瞰栅格地图等其他方法相比,基于线段向量的方法在保留重要信息的同时显著的减少了神经网络需要的参数量以及强化学习过程所需要的储存空间开销。
第三步:构建基于性格选择的奖励函数。奖励函数的设计关乎驾驶任务的成功率以及训练的效率,通过合理地设计奖励函数来鼓励高效的驾驶行为并保证将事故风险降至最低。
原始的奖励函数只关注优化自车的性能例如效率和安全性等,从而忽略了他车的性能,为了解决车辆之间的利益冲突问题,本发明引入了性格偏好的概念。具体来说,性格偏好被定义为自动驾驶车辆的驾驶行为的特定模式,例如,激进或保守的驾驶风格。通过对奖励函数的修改使其能够在决策过程中考虑到这些性格偏好,并等价于考虑自动驾驶车辆的行为对其他车辆造成的成本,其中包括时间成本、任务成本、安全成本等。本发明通过最小化这些成本来降低与其他车辆的利益冲突,并同时满足自动驾驶车辆的任务要求,为此在原始的奖励函数基础上提出了基于性格偏好的奖励函数。
第四步,设计一个基于多头注意力机制和DeepSet模型的网络SelectSVO,整个网络可分成两个模块:特征提取模块和输出动作与选择性格模块。SelectSVO以全局路径信息、车道信息和车辆轨迹信息作为输入,对输出信息进行特征提取并得到特征信息包括自车特征、他车特征、道路信息特征和类型特征;多头注意力机制网络以特征信息作为输入,其中自车特征作为Query,自车特征、他车特征、道路信息特征和类型特征作为Keys,自车特征、他车特征、道路信息特征作为Values,并输出与自车相关的特征向量;该特征向量经由多层感知网络(MLP)得到了性格特征信息,并与特征向量拼接,拼接后的信息经过MLP网络,并最终输出控制车辆与选择车辆性格的指令。
本发明的有益效果:
1、本发明利用深度强化学习来解决复杂的场景的问题。
2、本发明利用注意力机制网络结合多源感知信息。
3、本发明利用基于性格偏好的心理学概念解决提升驾驶性能。
附图说明
图1为本发明用于自动驾驶系统的框架图。
图2为本发明用于决策规划模块的示意图。
具体实施方式
下面结合附图对本发明的技术方案进行具体说明。
如图1所示,概括了设计的自动驾驶汽车系统框架,分为包含了上层信息模块、端到端决策规划模块和控制执行模块。上层信息模块包括周围车辆的轨迹信息、道路信息和全局路径规划信息,端到端决策规划模块作为策略π接收上层信息后输出动作a给控制执行模块,进而控制车辆运动。
第一步:构建部分可观测马尔科夫决策过程
自动驾驶的决策规划过程是典型的时间序列决策过程,可以被表示为部分可观测马尔科夫决策过程。部分可观测马尔科夫决策过程是一个八元组,
Figure SMS_6
其中
Figure SMS_7
代表智能体的观测状态空间(智能体表示自身车辆),/>
Figure SMS_8
代表动作空间(即为所有可能的动作集合,动作为加速度、转向、性格值,性格值为奖励函数当中的φ),P代表状态间的转移概率分布,/>
Figure SMS_9
代表奖励函数,/>
Figure SMS_10
代表状态空间,Ω代表条件观测概率分布,γ代表奖励折扣因子。/>
Figure SMS_11
均根据仿真环境间接给出。
在某一时刻智能体处于状态
Figure SMS_12
并基于条件观测概率Ω(o|s)收到一个观测值
Figure SMS_13
并且根据策略π(a|o)做出动作/>
Figure SMS_14
并以状态转移概率/>
Figure SMS_15
转移到了新的状态/>
Figure SMS_16
根据奖励函数R(s,a)收到一个奖励值/>
Figure SMS_17
如式(1)所示:
Figure SMS_18
其中,
Figure SMS_19
为累积奖励;/>
Figure SMS_20
为期望累积奖励,st根据状态转移概率分布/>
Figure SMS_21
得到,at根据策略π得到。
通过SelectSVO网络模型表示策略π,网络训练的目标函数如式(1)所示,智能体的目的为找到最优策略π*,该策略能够在每一个时间步骤中选择合理的动作以最大化自己能得到的期望累积奖励。本发明使用基于策略梯度的深度强化学习算法训练网络。
在SelectSVO网络模型的训练过程中,根据策略π(a|o)输出动作a,根据奖励函数R得到一个奖励值
Figure SMS_22
奖励值用于反映策略做出动作的好坏,选择合理的动作以最大化自己能得到的期望累积奖励,进而指导策略的训练更新。
第二步:感知模块会感知范围内其他车辆的轨迹信息和道路信息,并将这些感知信息进行处理以表示观测状态空间。为了表示感知信息,采用了线段向量的方式。具体地,基于线段向量的方法预处理地图信息,包括道路信息和车辆的轨迹信息,道路信息由全局路径和车道信息组成,车道信息包括道边和道路中心线。
具体的,观测状态空间被表示为集合的形式O={χs,χv},其中χs为道路信息集合χv为车辆的轨迹信息集合。
道路信息集合中包含了点集;
Figure SMS_23
其中centerline为道路中心线,sideline为道边线,route为全局路径;一个点集被表示为
Figure SMS_24
一个点的信息被表示为ξj=[pj,width,i,j],其中pj=(x,y,ψ)表示了车辆的坐标信息与朝向角ψ,width表示点集/>
Figure SMS_25
的道路宽度,i表示点ξj属于点集/>
Figure SMS_26
j表示该点是对应点集中的第j个点。
车辆的轨迹信息集合包括了环境中n辆车的轨迹信息
Figure SMS_27
一辆车的轨迹信息表示为点集/>
Figure SMS_28
horizon为车辆的轨迹长度;一个点的信息表示为/>
Figure SMS_29
其p′j=(x′,y′,ψ′,speed)中表示点的位置、朝向角以及速度信息,i表示点ξj属于第i辆车的轨迹,i表示该点属于轨迹中的第j个点。
第三步:构建基于性格选择的奖励函数设计方法。该奖励函数的设计旨在提高驾驶任务的成功率并加速训练过程,同时保证最小化事故风险。与原始奖励函数只注重优化自车性能相比,新设计的奖励函数考虑到其他车辆的性能,以避免车辆之间的利益冲突。为此,我们引入了性格偏好的概念,将自动驾驶车辆的驾驶行为定义为特定的模式,如激进或保守的驾驶风格。通过修改奖励函数以考虑这些性格偏好,我们可以在决策过程中评估自动驾驶车辆的行为对其他车辆造成的成本,包括时间成本、任务成本、安全成本等。我们的奖励函数通过最小化这些成本来降低与其他车辆的利益冲突,并同时满足自动驾驶车辆的任务要求。在原始奖励函数的基础上,基于性格偏好的奖励函数提出了更加全面的考虑。
基于任务目标设计原始奖励函数,任务目标为:全局路径规划模块给出车辆需要跟随的全局路径,车辆应按照给定的全局路径完成驾驶任务,驾驶速度需接近车辆的最大速度,同时应该保障安全性;
设计的奖励函数包括三项激励Rspeed、Rcollision、Rrule,如式(2)所示。
Figure SMS_30
Rspeed鼓励车辆以更快的速度行驶,从而提高任务完成的效率。Rcollision鼓励车辆避免碰撞事故的发生,Rrule鼓励车辆遵守交通规则,具体包括在道路内行驶以及避免逆向行驶,并鼓励车辆沿着给定的全局路径行驶。如式(3)所示。
Figure SMS_31
Figure SMS_32
其中,v是当前车辆的速度,vmax是车辆的最大速度。
车辆的速度越接近最大速度,得到的奖励就越大。当车辆当前的速度大于最大速度的一半时,奖励由负值变为正值。速度奖励具有连续性,即车辆每一个时刻都会收到一个速度奖励,而连续性奖励值过大会导致总的累积奖励占比太大从而影响了整体激励。因此,为了约束速度项奖励的激励程度,式(3)将奖励限制在[-1,1]内。
Figure SMS_33
式(4)中,collision表示表示车辆发生碰撞
如式(4)所示,车辆发生碰撞事件具有稀疏性,因此属于稀疏奖励值。考虑一段时间内的累积奖励,稀疏奖励值过小会被连续累积项的激励覆盖,为增大稀疏奖励的影响,当发生碰撞时车辆会受到较大的惩罚值。
Figure SMS_34
式(5)中,Off Road表示车辆驶出道边,Off Route表示偏离全局路径。
如式(5)所示,当车辆不按照规定的路线行驶或者违反基本的交通规则时会遭到惩罚,这样的惩罚同样属于稀疏性奖励值,因此惩罚值较大。
引入基于性格偏好的奖励函数
Figure SMS_35
Figure SMS_36
如式(6)所示,
Figure SMS_37
为自车根据所有车的原始奖励函数得到的奖励函数;
在某一时刻,所有车辆根据原始奖励函数R'得到了自车奖励r和他车奖励[r0,r1,...,rj,...rn-1],n表示环境中车的数量,j∈[0,n-1];
rs为自车周围的车辆得到平均原始奖励值。
具体来说,给定一个距离d,计算满足和自车距离POS(ego)-POS(j)小于d的所有他车车辆集合B,其中POS(ego)表示车辆的自车位置信息(x,y),POS(j)表示他车位置信息。得到有效他车集合B后,计算集合中车辆的原始奖励值,并取平均值。
而自车的奖励和他车的奖励的权衡比重由φ表示,其中φ∈[0,1],当φ趋近于0时,基于性格偏好的奖励函数将退化为原始奖励函数,并表现出自私的驾驶策略,当φ趋近于1时,自车将更加考虑他车获得的奖励,进而表现出合作的驾驶策略。
第四步,如图2所示,设计基于多头注意力机制和DeepSet模型的网络SelectSVO,整个网络可分成两个模块:特征提取模块和输出动作与选择性格模块。
SelectSVO以全局路径信息、车道信息和车辆轨迹信息作为输入,特征提取模块对输入信息进行特征提取并得到特征信息包括自车特征、他车特征、道路信息特征和类型特征;多头注意力机制网络以特征信息作为输入,其中自车特征作为Query,自车特征、他车特征、道路信息特征和类型特征作为Keys,自车特征、他车特征、道路信息特征作为Values,并输出与自车相关的特征向量;该特征向量经由多层感知网络(MLP)得到了性格特征信息,并与特征向量(多头注意力机制网络的输出)拼接,拼接后的信息经过MLP网络,并最终输出控制车辆与选择车辆性格的指令。
自车特征为车辆信息中的自车轨迹特征;他车特征为车辆信息中的他车轨迹特征;类型信息主要根据不同的信息来源对自车特征、他车特征和道路信息特征进行类型编码,其中自车信息编码为1,他车信息编码为2,全局路径编码为3,道路中心线编码为4,道边线编码为5。
各个网络模块的详细介绍如下:
特征提取模块的输入为包含道路信息和车辆轨迹信息的集合,道路信息集合中包含的点集
Figure SMS_38
和/>
Figure SMS_39
为了处理变长的点集集合并、保证点集集合具有排列不变性即f((ξ1,ξ2,ξ3))=f((ξ2,ξ1,ξ3))=f((ξ3,ξ1,ξ2)),本发明使用基于DeepSet的特征提取模型;DeepSet能够处理变长的具有排列不变性的数据式(7)所示。
Figure SMS_40
给定点集e=[ξ0,ξ1,...,ξM],为了构造一个具有排列不变性的神经网络,首先对每一个点集信息做预处理,即通过神经网络φ并得到隐式特征
Figure SMS_41
各个点集对应的隐式空间做相加,从而去掉了各个点集之间的顺序信息,从而达到了点集集合信息具有排列不变性的目的;最后将相加后的的信息/>
Figure SMS_42
送入神经网络ρ从而得到了最终的特征信息。
引入注意力机制的性格选择。如式(6)所示,性格偏好值影响了φ自车的奖励函数激励方式,进而影响了驾驶策略(如激进、保守)。本发明考虑自车的性格偏好值在训练过程是可以变化的量;自车会根据驾驶环境的不同而展现出不同的性格偏好,即性格选择。具体地,本发明使用了基于注意力机制的性格选择,在输出驾驶动作的同时选择自车性格。
特征提取模块输出的特征维度为128,经过多头注意力机制网络输出维度为1×128特征信息,其中自车特征信息为Query,
Figure SMS_43
类型信息会和其他信息(自车信息、他车信息、道路信息)做原址加和,得到Keys,/>
Figure SMS_44
其中M为他车的数量,N为道路信息线段的数量;其中Values为/>
Figure SMS_45
Figure SMS_46
得到的Q,K,V值会经过有4个头的多头注意力机制网络MultiHead(Q,K,V),而多头注意力机制网络包含数个Attention(Q,K,V)的操作,如公式(8)所示。
Figure SMS_47
将得到的Q,K,V矩阵进行点积,并输出自车注意力特征信息,其中dk是输入特征,维度为128;输出的特征信息经由包含三层全连接层的多层感知机网络,输出自车性格特征信息,并和自车注意力特征信息连接,输出包含性格的特征信息;性格特征信息经由包含层全连接层的多层感知机网络,输出控制车辆的加速度、转向以及性格值。
本发明使用Universe仿真器,并考虑瓶颈路段(Bottleneck)复杂场景,训练一个单车自动驾驶策略,环境中的其他车辆由人类驾驶模型IDM表示。在训练的环节,环境中车的数量从8到20个随机生成,包含自车和若干人类驾驶车辆,在验证阶段,环境中的车辆总数固定为20个。在每一个回合中,车辆的初始点与目标点是根据给定的生成点集中随机生成的。自车的控制输出为加速度、转向、性格值φ;传递给控制执行模块控制车辆运动,车辆由自行车模型表示。本章使用SAC算法训练网络,并使用Adam优化器进行优化,SAC相关的参数见表1。实验设备包括一块NVIDIA GeForce RTX 3090和一块Intel i9-12900KF CPU,用作模型训练和测试。
表1SAC算法超参数
Figure SMS_48
本发明从效率和安全性两个方面考虑,效率方面包括成功率(Success)和平均速度(Speed);安全性包含碰撞率(Collision)、偏离全局路径(Off Route),驶出道路边率(Off Road)。具体的,成功率表示车辆在给定的时间范围内和保证安全性的条件下从起始点成功到达目标点的概率;平均速度表示一个回合中车辆驾驶的平均速度;碰撞率表示与其他车辆发生碰撞的概率;偏离全局路径表示车辆偏离给定的全局路径的概率;驶出道边率表示车辆行驶出规定的道路区域。如表2所示是Bottleneck场景的结果,包含自车、他车和整体性能三部分,指标旁的箭头符号表示性能与值的关系,列如Collision(↓)表示数值越低,对应性能越好,反之性能越差。为验证算法的有效性,对比方法包括Rule,基于跟驰模型IDM作为自车驾驶策略以及Saxena等人基于策略梯度的决策规划算法,简称SDB。不难发现,本发明提出的SelectSVO能够在提升自车性能的同时考虑整体利益。
表2Bottleneck场景下的驾驶性能
Figure SMS_49
Rule算法的Off Road和Off Route的结果较好,但Success和Collision的结果在自车、他车和整体部分都是最差的。相较于Rule算法,SDB有较大的性能提升,特别地,SDB算法在自车性能部分中表现最好,尤其是Success、Collision和Speed三项,这是由于SDB只关注自车利益,从而对自车性能提升最大。本发明提出的SelectSVO虽然在自车性能部分中不如SDB,但相比与Rule,同样有较大提升。SelectSVO在他车性能和整体性能中综合表现最优,尤其是Success和Collision两项。综上,驾驶性能提升的原因在于SelectSVO不仅关注自车车辆利益,同时还考虑周围人类驾驶车辆的利益,从而指导策略优化考虑整体利益。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于性格选择的自动驾驶汽车决策规划方法,其特征在于,包括以下步骤:
S1:使用部分可观测马尔科夫决策过程对自动驾驶汽车的行为决策过程进行建模,构建的部分可观测马尔科夫决策过程为八元组,具体为
Figure FDA0004169452900000011
其中:
Figure FDA0004169452900000012
表示智能体的观测状态空间:通过感知模块感知车辆的道路信息和车辆的轨迹信息,采用线段向量的方法处理感知模块获得的感知信息,以表示观测状态空间;
Figure FDA0004169452900000013
表示所有可能的动作集合,所有可能的动作a包括加速度、转向、性格值φ;
Figure FDA0004169452900000014
表示基于性格偏好的奖励函数,通过在原始奖励函数基础上引入性格值φ得到基于性格偏好的奖励函数;
π表示策略,通过SelectSVO网络模型表示策略π,根据策略π确定性格值φ;
P表示状态间的转移概率分布;
Figure FDA0004169452900000015
表示状态空间;
Ω表示条件观测概率分布;
γ表示奖励折扣因子;
S2:根据构建的部分可观测马尔科夫决策过程描述自动驾驶汽车与环境的交互过程;
S21:将车辆实时的观测状态o输入训练后的策略π中,根据策略π输出动作a,并根据条件观测概率分布Ω转移到新的观测状态o′,再根据策略π输出新的动作a′,通过动作指导驾驶行为和性格选择;
S22:循环步骤S21,直至驾驶任务结束。
2.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,所述步骤S1中,采用线段向量的方法表示观测状态空间,所述的观测状态空间
Figure FDA0004169452900000016
其中:
χs为道路信息集合,具体为
Figure FDA0004169452900000017
其中centerline为道路中心线,sideline为道边线,route为全局路径;
道路信息集合中的一个点集
Figure FDA0004169452900000018
点集/>
Figure FDA0004169452900000019
中一个点的信息表示为ξj=[pj,width,i,j],其中pj=(x,y,ψ)表示车辆的坐标信息(x,y)与朝向角ψ,width表示点集/>
Figure FDA00041694529000000110
的道路宽度,i表示点ξj属于点集/>
Figure FDA00041694529000000111
j表示该点是对应点集中的第j个点;
χv为车辆的轨迹信息集合,车辆的轨迹信息集合包含有环境中n辆车的轨迹信息,具体为
Figure FDA00041694529000000112
车辆的轨迹信息集合χv中一辆车的轨迹信息表示为点集
Figure FDA0004169452900000021
Figure FDA0004169452900000022
horizon为车辆的轨迹长度;点集/>
Figure FDA0004169452900000023
中一个点的信息表示为/>
Figure FDA0004169452900000024
其中p′j=(x′,y′,ψ′,speed)表示轨迹点的位置(x′,y′)、朝向角以及速度信息,i表示点ζj属于第i辆车的轨迹即点集/>
Figure FDA0004169452900000025
j表示该点属于轨迹中的第j个点。
3.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,通过在原始奖励函数R′基础上引入性格值φ得到基于性格偏好的奖励函数
Figure FDA0004169452900000026
具体为:
Figure FDA0004169452900000027
Figure FDA0004169452900000028
其中,
Figure FDA0004169452900000029
为自车根据所有车的原始奖励函数得到的奖励函数;
φ为性格值,为自车的奖励和他车的奖励的权衡比重,φ∈[0,1];当φ趋近于0时,基于性格偏好的奖励函数将退化为原始奖励函数,并表现出自私的驾驶策略,当φ趋近于1时,自车将更加考虑他车获得的奖励,进而表现出合作的驾驶策略;
r为自车奖励,rj为他车奖励,所有车辆根据原始奖励函数R′得到某一时刻的自车奖励r和他车奖励[r0,r1,...,rj,...rn-1|,n表示环境中车的数量,j∈[0,n-1];
rs为自车周围车辆的平均原始奖励值;
Pos(ego)表示自车位置信息(x,y),Pos(j)表示他车位置信息,d表示距离。
4.根据权利要求3所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,
基于任务目标设计原始奖励函数R′,任务目标具体为:全局路径规划模块给出车辆需跟随的全局路径,车辆按照给定的全局路径完成驾驶任务,在保障安全性的同时驾驶速度需接近车辆的最大速度;
原始奖励函数R′包括三项激励Rspeed、Rcollision、Rrule,具体为:
Figure FDA00041694529000000210
Rspeed鼓励车辆以更快的速度行驶,从而提高任务完成的效率,具体为:
Figure FDA00041694529000000211
Figure FDA00041694529000000212
其中,v是当前车辆的速度,vmax是车辆的最大速度;
Rcollision鼓励车辆避免碰撞事故的发生,具体为:
Figure FDA0004169452900000031
其中,collision表示车辆发生碰撞;
Rrule鼓励车辆遵守交通规则,具体包括在道路内行驶以及避免逆向行驶,并鼓励车辆沿着给定的全局路径行驶,具体为:
Figure FDA0004169452900000032
其中,OffRoad表示车辆驶出道边,OffRoute表示偏离全局路径。
5.根据权利要求3所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,通过SelectSVO网络模型表示策略π,SelectSVO网络模型包括特征提取模块和输出动作与选择性格模块;
基于DeepSet的特征提取模型构建特征提取模块,特征提取模块的输入为车辆的道路信息和车辆的轨迹信息,特征提取模块对输出信息进行处理得到经特征提取的自车特征、他车特征、道路信息特征和类型特征;
输出动作与选择性格模块包括多头注意力机制网络、两个多层感知网络,多头注意力机制网络以特征提取模块的输出作为输入,其中自车特征作为Query,自车特征、他车特征、道路信息特征和类型特征作为Keys,自车特征、他车特征、道路信息特征作为Values,输出维度为1×128的特征向量;多头注意力机制网络的输出经第一个多层感知网络得到性格特征信息后,与多头注意力机制网络的输出进行拼接,拼接后的信息经第二个多层感知网络网络,并最终输出控制车辆与选择车辆性格的指令,即加速度、转向、性格值φ。
6.根据权利要求5所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,所述的特征提取模块输出的自车特征为轨迹信息中的自车轨迹特征,他车特征为轨迹信息中的他车轨迹特征,类型特征为根据不同的信息来源对自车特征、他车特征、道路信息特征进行类型编码,其中自车特征信息编码为1,他车特征信息编码为2,全局路径编码为3,道路中心线编码为4,道边线编码为5。
7.根据权利要求5所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,
在SelectSVO网络模型的训练过程中,根据策略π输出动作a,再根据奖励函数R得到奖励值r,奖励值用于反映策略做出动作的好坏,选择合理的动作以最大化策略的期望累积奖励,进而指导策略的训练更新;
其中,期望累积奖励为多次部分可观测马尔科夫决策过程中累积的奖励的期望。
CN202310373435.XA 2023-04-10 2023-04-10 基于性格选择的自动驾驶汽车决策规划方法 Pending CN116432454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310373435.XA CN116432454A (zh) 2023-04-10 2023-04-10 基于性格选择的自动驾驶汽车决策规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310373435.XA CN116432454A (zh) 2023-04-10 2023-04-10 基于性格选择的自动驾驶汽车决策规划方法

Publications (1)

Publication Number Publication Date
CN116432454A true CN116432454A (zh) 2023-07-14

Family

ID=87093888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310373435.XA Pending CN116432454A (zh) 2023-04-10 2023-04-10 基于性格选择的自动驾驶汽车决策规划方法

Country Status (1)

Country Link
CN (1) CN116432454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880218A (zh) * 2023-09-06 2023-10-13 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN118228612A (zh) * 2024-05-24 2024-06-21 西安电子科技大学 一种基于强化学习的自然性自动驾驶场景生成方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880218A (zh) * 2023-09-06 2023-10-13 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN116880218B (zh) * 2023-09-06 2023-12-19 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN118228612A (zh) * 2024-05-24 2024-06-21 西安电子科技大学 一种基于强化学习的自然性自动驾驶场景生成方法及装置
CN118228612B (zh) * 2024-05-24 2024-08-30 西安电子科技大学 一种基于强化学习的自然性自动驾驶场景生成方法及装置

Similar Documents

Publication Publication Date Title
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
US11555706B1 (en) Processing graph representations of tactical maps using neural networks
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN116432454A (zh) 基于性格选择的自动驾驶汽车决策规划方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
Jayawardana et al. Learning eco-driving strategies at signalized intersections
CN112735126B (zh) 一种基于模型预测控制的混合交通流协同优化控制方法
Li et al. Combining decision making and trajectory planning for lane changing using deep reinforcement learning
CN114919578B (zh) 智能车行为决策方法、规划方法、系统及存储介质
CN114368387B (zh) 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN115062202A (zh) 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质
CN116050245A (zh) 基于复杂网络理论的高速公路自动驾驶商用车轨迹预测与决策方法与系统
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
CN117719535A (zh) 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法
CN115631651A (zh) 一种无管控路口环境的自动驾驶决策规划系统和方法
CN118062052A (zh) 考虑驾驶行为的自动驾驶汽车安全运动规划方法
Yang et al. Leveraging human driving preferences to predict vehicle speed
CN117227755A (zh) 基于强化学习的复杂交通场景下自动驾驶决策方法及系统
CN113120003B (zh) 无人驾驶车辆运动行为决策方法
Dong et al. Lane-changing trajectory control strategy on fuel consumption in an iterative learning framework
Zhancheng Research on application of deep reinforcement learning in traffic signal control
CN113479187A (zh) 一种插电式混合动力汽车分层异步长能量管理方法
CN116639124A (zh) 一种基于双层深度强化学习的自动驾驶车辆换道方法
Hu et al. Autonomous Motion Decision-making based on Deep Reinforcement Learning for Autonomous Driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination