CN114781072A - 一种无人驾驶车辆的决策方法和系统 - Google Patents

一种无人驾驶车辆的决策方法和系统 Download PDF

Info

Publication number
CN114781072A
CN114781072A CN202210683994.6A CN202210683994A CN114781072A CN 114781072 A CN114781072 A CN 114781072A CN 202210683994 A CN202210683994 A CN 202210683994A CN 114781072 A CN114781072 A CN 114781072A
Authority
CN
China
Prior art keywords
vehicle
time
decision
target vehicle
observation state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210683994.6A
Other languages
English (en)
Inventor
徐书缘
陈雪梅
韩欣彤
杨宏伟
高丛政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Weichuang Information Technology Co ltd
Advanced Technology Research Institute of Beijing Institute of Technology
Original Assignee
Shandong Weichuang Information Technology Co ltd
Advanced Technology Research Institute of Beijing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Weichuang Information Technology Co ltd, Advanced Technology Research Institute of Beijing Institute of Technology filed Critical Shandong Weichuang Information Technology Co ltd
Priority to CN202210683994.6A priority Critical patent/CN114781072A/zh
Publication of CN114781072A publication Critical patent/CN114781072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18159Traversing an intersection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4041Position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4042Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4043Lateral speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/12Timing analysis or timing optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Geometry (AREA)
  • Transportation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Algebra (AREA)

Abstract

本发明提出了一种无人驾驶车辆的决策方法和系统,该方法包括获取交叉口环境下第一时刻观测状态;将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。基于该方法,还提出了决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率。

Description

一种无人驾驶车辆的决策方法和系统
技术领域
本发明属于无人驾驶决策技术领域,特别涉及一种无人驾驶车辆的决策方法和系统。
背景技术
在安全和效率方面,无人驾驶车辆比有人驾驶车辆具有巨大优势。城市环境是自主车辆必须处理的最复杂的场景,特别是无信号灯的十字路口。城市十字路口的决策更具挑战性,因为穿越行为是一个强烈的时间约束、多目标的优化过程。当交通参与者在无信号灯的十字路口一个接一个地通过冲突区时,车辆面临着潜在的威胁。因此,研究无信号灯交叉口的通行决策具有重要的实际意义。由于机器学习的发展,基于学习的方法在自主车辆的决策研究中得到了广泛关注。然而在实际应用中,强化学习决策算法的学习效率和泛化能力还需要进一步提高,基于学习的决策方法的性能受到数据集质量的限制,还需要进一步改进。
现有技术中给出了不同的解决方案,在方案一中针对不同的交通参与者之间会不可避免地产生时间或空间上的冲突问题,对智能驾驶车辆在城市交叉口左转时潜在的冲突行为进行分析并建立决策模型。考虑了车辆运动模式并基于高斯过程回归模型(GPR)建立了直行车辆长时轨迹预测模型,结合轨迹预测提出了基于冲突消解的智能驾驶车辆决策流程模型和考虑多因素的驾驶动作选择方法。在方案二中针对交叉口穿越行为,引入人类驾驶经验规律在指导在线强化学习,利用Q-learning和NQL算法实现最优策略迭代。在方案二中针对端到端学习,提出利用DDPG模型实现从感知信息到控制信息的决策,明显优于DQN模型。但是现有技术具有两点不足之处:第一,针对交叉口场景的传统方法缺乏算法灵活性,主要依靠碰撞时间TTC来进行避障判断,针对交叉口场景的深度学习方法缺乏泛化性,对数据质量要求较高。第二,现有的基于强化学习的决策模型虽然考虑复杂化环境下的各类障碍物,但仍然缺乏高效的收敛性和交叉口环境的泛化性能。例如,有些模型在简单场景的训练时间较长,收敛速度慢;有些模型无法具备场景适应性,周围车辆的位置变化导致决策模型无法安全通行。
发明内容
为了解决上述技术问题,本发明提出了一种无人驾驶车辆的决策方法和系统。融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
为实现上述目的,本发明采用以下技术方案:
一种无人驾驶车辆的决策方法,包括以下步骤:
获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
进一步的,在获取交叉口环境下第一时刻观测状态之后,搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
进一步的,所述时序观测状态生成的方法包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 152416DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 321360DEST_PATH_IMAGE002
其中,t=1,2,3...n;所述时序观测状态
Figure 768522DEST_PATH_IMAGE003
进一步的,所述目标车辆的加速度得到的方法为:所述时序观测状态为神经网络提供的环境信息为
Figure 489353DEST_PATH_IMAGE004
;环境信息表达为:
Figure 389176DEST_PATH_IMAGE005
其中
Figure 96232DEST_PATH_IMAGE006
为目标车辆水平方向的相对位置;
Figure 663480DEST_PATH_IMAGE007
为第一冲突车辆垂直方向的相对位置;
Figure 555212DEST_PATH_IMAGE008
为第m冲突车辆垂直方向的相对位置;
Figure 942331DEST_PATH_IMAGE009
为目标车辆速度;
Figure 450148DEST_PATH_IMAGE010
为第一冲突车辆的速度;
Figure 871902DEST_PATH_IMAGE008
为第m冲突车辆的速度;
Figure 934536DEST_PATH_IMAGE011
为目标车辆的状态,包括相对位置和速度;
Figure 808951DEST_PATH_IMAGE012
为第一冲突车辆的状态;
Figure 857810DEST_PATH_IMAGE013
为第m冲突车辆的状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Figure 134071DEST_PATH_IMAGE014
;其中
Figure 367606DEST_PATH_IMAGE015
为目标车辆的加速度。
进一步的,所述在得到确定性动作后还包括:
初始化第一评论者
Figure 729317DEST_PATH_IMAGE016
、第二评论者
Figure 581867DEST_PATH_IMAGE017
和行动者
Figure 712634DEST_PATH_IMAGE018
;初始化第一评论者的目标函数
Figure 117070DEST_PATH_IMAGE019
、第二评论者的目标函数
Figure 966077DEST_PATH_IMAGE020
和行动者的目标函数
Figure 622318DEST_PATH_IMAGE021
;初始化第一评论者的权重
Figure 607591DEST_PATH_IMAGE022
、第二评论者的权重
Figure 182929DEST_PATH_IMAGE023
和初始化行动者的权重
Figure 519233DEST_PATH_IMAGE024
;以及初始化记忆缓冲区R;
其中
Figure 713585DEST_PATH_IMAGE025
表示动作;
Figure 818944DEST_PATH_IMAGE026
表示状态。
进一步的,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值的过程包括:
目标车辆从起始位置穿越交叉口完成任务或者目标车辆在冲突区域发生碰撞时进入下一个回合时,接收
Figure 565183DEST_PATH_IMAGE027
以及
Figure 388783DEST_PATH_IMAGE028
根据
Figure 121246DEST_PATH_IMAGE029
Figure 81112DEST_PATH_IMAGE030
,在记忆缓冲区R存入
Figure 263832DEST_PATH_IMAGE031
;其中
Figure 309148DEST_PATH_IMAGE032
为执行行动;
Figure 845303DEST_PATH_IMAGE033
为观察奖励;
Figure 925254DEST_PATH_IMAGE034
为观察下一状态奖励;
从R中随机抽取批次数据D;
Figure 13296DEST_PATH_IMAGE035
其中
Figure 545909DEST_PATH_IMAGE036
代表正态分布,
Figure 885754DEST_PATH_IMAGE037
代表截取参数;
Figure 820212DEST_PATH_IMAGE038
代表批量的动作;
Figure 79155DEST_PATH_IMAGE039
代表噪声;
Figure 99064DEST_PATH_IMAGE040
代表动作策略;
Figure 974091DEST_PATH_IMAGE041
Figure 763056DEST_PATH_IMAGE042
代表计算TD的目标值;
Figure 458479DEST_PATH_IMAGE043
代表短期奖励优先级的折扣系数;
更新评论者网络;
Figure 965684DEST_PATH_IMAGE044
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
进一步的,所述方法运行于目标车辆的车载计算平台。
本发明还提出了一种无人驾驶车辆的决策系统,包括:获取模块、训练模块、计算模块和执行模块;
所述获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
所述训练模块用于将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
所述计算模块用于在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
所述执行模块用于获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
进一步的,所述获取模块执行之后还包括搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
进一步的,所述训练模块执行的详细过程包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 381753DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 290803DEST_PATH_IMAGE045
其中,t=1,2,3...n;所述时序观测状态
Figure 891549DEST_PATH_IMAGE003
时序观测状态为神经网络提供的环境信息为
Figure 886050DEST_PATH_IMAGE046
;环境信息表达为:
Figure 105809DEST_PATH_IMAGE047
其中
Figure 869366DEST_PATH_IMAGE048
为目标车辆水平方向的相对位置;
Figure 906592DEST_PATH_IMAGE049
为第一冲突车辆垂直方向的相对位置;
Figure 122810DEST_PATH_IMAGE008
为第m冲突车辆垂直方向的相对位置;
Figure 146261DEST_PATH_IMAGE009
为目标车辆速度;
Figure 764324DEST_PATH_IMAGE010
为第一冲突车辆的速度;
Figure 972451DEST_PATH_IMAGE008
为第m冲突车辆的速度;
Figure 675965DEST_PATH_IMAGE011
为目标车辆的状态,包括相对位置和速度;
Figure 237528DEST_PATH_IMAGE012
为第一冲突车辆的状态;
Figure 975676DEST_PATH_IMAGE013
为第m冲突车辆的状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Figure 354705DEST_PATH_IMAGE014
;其中
Figure 545515DEST_PATH_IMAGE015
为目标车辆的加速度。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种无人驾驶车辆的决策方法和系统,该方法包括以下步骤:
获取交叉口环境下第一时刻观测状态;第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;环境车辆为与目标车辆存在冲突的车辆;将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。基于一种无人驾驶车辆的决策方法,还提出了一种无人驾驶车辆的决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
本发明利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络,实现探索网络与行动者网络叠加生成更优动作靠近,实现算法的快速收敛。
本发明采用时间双延迟深度确定性策略梯度算法,将MDP模型扩展序列化,利用预测的思想,将LSTM神经网络放入TD3框架中,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略,实现算法的泛化性。
附图说明
如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图;
如图2为本发明实施例2一种无人驾驶车辆的决策系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种无人驾驶车辆的决策方法。融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性;如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图,该方法运行于无人驾驶目标车辆的车载计算平台。
在步骤S100中,获取交叉口环境下第一时刻观测状态;第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;环境车辆为与目标车辆存在冲突的车辆;
在复杂城市交叉口场景,目标车辆在到达无信号交叉口前,目标车辆的车载计算平台确定交叉口环境下与自主车辆存在潜在冲突的环境车辆的第一时刻观测状态。观测状态即为训练模型中的状态空间。
在步骤S110中,将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作。
时序观测状态生成的方法包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 910769DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 237845DEST_PATH_IMAGE050
其中,t=1,2,3...n;所述时序观测状态
Figure 787775DEST_PATH_IMAGE051
搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
本发明实施例1中,选择典型城市交叉口,双向4车道,设定所有车辆的初始速度为40km/h。周围的车辆以恒定的速度行驶。本车的初始位置被随机设置为从停车线到停车线后50米。周围车辆的初始位置也是随机设置的,但它们的间距被设置为20米,符合城市交叉口的间距,随机设置的目的是为了创造一个真实的交通模拟,增加决策泛化的能力。目的是让目标车辆根据周围车辆的状态,自主地选择提前通过交通流,或从交通流中间通过,或从交通流后通过。
时序观测状态为神经网络提供的环境信息为
Figure 465881DEST_PATH_IMAGE052
;环境信息表达为:
Figure 634825DEST_PATH_IMAGE005
其中
Figure 81987DEST_PATH_IMAGE048
为目标车辆水平方向的相对位置;
Figure 537239DEST_PATH_IMAGE007
为第一冲突车辆垂直方向的相对位置;
Figure 702641DEST_PATH_IMAGE008
为第m冲突车辆垂直方向的相对位置;
Figure 409697DEST_PATH_IMAGE009
为目标车辆速度;
Figure 976945DEST_PATH_IMAGE010
为第一冲突车辆的速度;
Figure 603098DEST_PATH_IMAGE053
为第m冲突车辆的速度;
Figure 255796DEST_PATH_IMAGE011
为目标车辆的状态,包括相对位置和速度;
Figure 763613DEST_PATH_IMAGE012
为第一冲突车辆的状态;
Figure 919788DEST_PATH_IMAGE054
为第m冲突车辆的状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Figure 982422DEST_PATH_IMAGE055
;其中
Figure 856837DEST_PATH_IMAGE056
为目标车辆的加速度。
在步骤S120中,在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值。
本发明首先基于元探索深度确定性策略梯度算法进行建模,元探索策略
Figure 171275DEST_PATH_IMAGE057
取代传统的OU噪声网络生成一组数据并将其送入记忆存储区,评论者网络从中学习经验。目标是改进原有的actor网络使得它能生成大量更有用的数据,使得原有DDPG尽可能快地收敛和提高奖励值。
优化有元探索策略输入
Figure 447536DEST_PATH_IMAGE058
和无元探索策略输入
Figure 681071DEST_PATH_IMAGE059
的更新之间的差异
Figure 42782DEST_PATH_IMAGE060
是元探索强化学习的关键。
Figure 895332DEST_PATH_IMAGE061
其中
Figure 26099DEST_PATH_IMAGE062
表示一个新的策略更新,在π的数据基础上,从记忆存储区中采样的新策略。
Figure 430535DEST_PATH_IMAGE063
表示动作,
Figure 279543DEST_PATH_IMAGE064
表示下一时刻的动作,
Figure 670204DEST_PATH_IMAGE065
表示状态,
Figure 921056DEST_PATH_IMAGE066
表示下一时刻的状态,
Figure 496394DEST_PATH_IMAGE067
Figure 832698DEST_PATH_IMAGE068
分别表示actor和critic的网络参数。与行为者策略不同的是,元探索策略是基于随机策略梯度的,我们可以计算出以下梯度
Figure 27050DEST_PATH_IMAGE069
Figure 132409DEST_PATH_IMAGE070
其中,
Figure 878648DEST_PATH_IMAGE071
是给定策略
Figure 436668DEST_PATH_IMAGE072
产生一个批次数据D的转移概率,通过增加价值函数的梯度,引导
Figure 434711DEST_PATH_IMAGE073
元探索策略训练方向为全局探索,N是训练的批次数目batch_size。其中概率分布可以被分解为:
Figure 394577DEST_PATH_IMAGE074
Figure 311718DEST_PATH_IMAGE075
其中
Figure 622613DEST_PATH_IMAGE076
表示过渡概率和
Figure 158768DEST_PATH_IMAGE077
表示初始分布,
Figure 973140DEST_PATH_IMAGE078
表示状态为
Figure 326761DEST_PATH_IMAGE079
,执行动作的策略
Figure 859374DEST_PATH_IMAGE080
。因为
Figure 199219DEST_PATH_IMAGE081
不涉及探索策略参数
Figure 868098DEST_PATH_IMAGE082
,通过计算梯度可得到:
Figure 392620DEST_PATH_IMAGE083
因此,如果获得该元奖励回报
Figure 412529DEST_PATH_IMAGE084
,就可以按照更新规则来更新探索策略参数
Figure 287556DEST_PATH_IMAGE085
;其中,
Figure 76521DEST_PATH_IMAGE086
;其中
Figure 771944DEST_PATH_IMAGE087
代表学习率。
在基于价值的强化学习方法中,已知价值函数的近似误差会导致高估的价值估计,最终导致得到一个不完美的策略。为了很好地处理这个问题,双延迟深度确定性策略梯度(TD3)算法应运而生,本发明提出基于元探索时间双延迟深度确定性策略梯度算法模型。具体而言,元探索采用上述的模型。
传统的马尔可夫决策过程只与当前状态有关。然而,忘记以前的状态在自主驾驶中是不合理的,因为自主驾驶任务与时间相关。本发明使用多帧数据作为输入来训练自主车辆。算法策略将当前状态和过去一段时间的状态考虑在内,并将预测信息整合到MDP模型中。在此基础上,本发明提出了一种改进的TD3算法,称为时间双延迟的深度确定型策略梯度(T-TD3),其中TD3算法与DDPG算法的主要不同在于多了一个评论者网络。
第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 13570DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 695218DEST_PATH_IMAGE088
其中,t=1,2,3...n;所述时序观测状态
Figure 604268DEST_PATH_IMAGE089
本发明将DDPG基础框架中原有的网络由全连接神经网络修改为LSTM神经网络,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略。与基于目标状态识别的决策方法相比,基于行动预测的算法的实时性更好,泛化性更强。其中DDPG为深度确定性策略梯度。
所以本发明实现的过程为:
初始化第一评论者
Figure 205014DEST_PATH_IMAGE016
、第二评论者
Figure 340460DEST_PATH_IMAGE017
和行动者
Figure 419275DEST_PATH_IMAGE018
;初始化第一评论者的目标函数
Figure 182831DEST_PATH_IMAGE019
、第二评论者的目标函数
Figure 954478DEST_PATH_IMAGE020
和行动者的目标函数
Figure 436275DEST_PATH_IMAGE021
;初始化第一评论者的权重
Figure 725305DEST_PATH_IMAGE022
、第二评论者的权重
Figure 77789DEST_PATH_IMAGE023
和初始化行动者的权重
Figure 285916DEST_PATH_IMAGE024
;以及初始化记忆缓冲区R;
其中
Figure 989430DEST_PATH_IMAGE025
表示动作;
Figure 550993DEST_PATH_IMAGE026
表示状态;
目标车辆从起始位置穿越交叉口完成任务或者目标车辆在冲突区域发生碰撞时进入下一个回合时,接收
Figure 289142DEST_PATH_IMAGE027
以及
Figure 402591DEST_PATH_IMAGE028
根据
Figure 593401DEST_PATH_IMAGE029
Figure 958654DEST_PATH_IMAGE030
,在记忆缓冲区R存入
Figure 551310DEST_PATH_IMAGE031
;其中
Figure 101240DEST_PATH_IMAGE032
为执行行动;
Figure 779346DEST_PATH_IMAGE033
为观察奖励;
Figure 682711DEST_PATH_IMAGE034
为观察下一状态奖励;
从R中随机抽取批次数据D;
Figure 129873DEST_PATH_IMAGE035
其中
Figure 850704DEST_PATH_IMAGE036
代表正态分布,
Figure 16106DEST_PATH_IMAGE037
代表截取参数;
Figure 723162DEST_PATH_IMAGE038
代表批量的动作;
Figure 24831DEST_PATH_IMAGE039
代表噪声;
Figure 916563DEST_PATH_IMAGE040
代表动作策略;
Figure 569261DEST_PATH_IMAGE090
Figure 811499DEST_PATH_IMAGE042
代表计算TD的目标值;
Figure 233253DEST_PATH_IMAGE043
代表短期奖励优先级的折扣系数;
更新评论者网络;
Figure 295887DEST_PATH_IMAGE091
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
在步骤S130中,获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。
本发明具体的融合表现为元探索学习算法与时间双延迟深度确定性策略梯度算法同时放入强化学习框架,即两种算法融合到一个决策模型中。元探索学习算法的意义主要在于替换强化学习框架中环境噪声生成的部分,使决策模型在训练时能尽可能快地收敛和提高奖励值。时间双延迟深度确定性策略梯度算法替换原有强化学习框架中神经网络的部分,将DDPG中神经网络结构替换成T-TD3的神经网络结构,构建基于时序的决策模型,同样使决策模型在训练时收敛更快和奖励值更高。
本发明实施例1提出的一种无人驾驶车辆的决策方法,融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
实施例2
基于本发明实施例1提出的一种无人驾驶车辆的决策方法,本发明实施例2还提出了一种无人驾驶车辆的决策系统,该系统包括获取模块、训练模块、计算模块和执行模块;
获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
训练模块用于将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
计算模块用于在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
执行模块用于获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。
本发明实施例2中每个模块将实施例1中的方法模块化,详细的过程参照实施例1中方法的实现过程。
本发明实施例2提出的一种无人驾驶车辆的决策系统,融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
本发明实施例2提出的一种无人驾驶车辆的决策系统,利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络,实现探索网络与行动者网络叠加生成更优动作靠近,实现算法的快速收敛。
本发明实施例2提出的一种无人驾驶车辆的决策系统,采用时间双延迟深度确定性策略梯度算法,将MDP模型扩展序列化,利用预测的思想,将LSTM神经网络放入TD3框架中,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略,实现算法的泛化性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种无人驾驶车辆的决策方法,其特征在于,包括以下步骤:
获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境 。
2.根据权利要求1所述的一种无人驾驶车辆的决策方法,其特征在于,在获取交叉口环境下第一时刻观测状态之后,搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
3.根据权利要求1所述的一种无人驾驶车辆的决策方法,其特征在于,所述时序观测状态生成的方法包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 209412DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 515759DEST_PATH_IMAGE002
其中,t=1,2,3...n;所述时序观测状态
Figure 347449DEST_PATH_IMAGE003
4.根据权利要求3所述的一种无人驾驶车辆的决策方法,其特征在于,所述目标车辆的加速度得到的方法为:所述时序观测状态为神经网络提供的环境信息为
Figure 649117DEST_PATH_IMAGE004
;环境信息表达为:
Figure 416216DEST_PATH_IMAGE005
其中
Figure 803335DEST_PATH_IMAGE006
为目标车辆水平方向的相对位置;
Figure 438716DEST_PATH_IMAGE007
为第一冲突车辆垂直方向的相对位置;
Figure 860470DEST_PATH_IMAGE008
为第m冲突车辆垂直方向的相对位置;
Figure 798470DEST_PATH_IMAGE009
为目标车辆速度;
Figure 672885DEST_PATH_IMAGE010
为第一冲突车辆的速度;
Figure 846377DEST_PATH_IMAGE008
为第m冲突车辆的速度;
Figure 122638DEST_PATH_IMAGE011
为目标车辆的状态,包括相对位置和速度;
Figure 231539DEST_PATH_IMAGE012
为第一冲突车辆的状态;
Figure 593251DEST_PATH_IMAGE013
为第m冲突车辆的状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Figure 570434DEST_PATH_IMAGE014
;其中
Figure 966780DEST_PATH_IMAGE015
为目标车辆的加速度。
5.根据权利要求1所述的一种无人驾驶车辆的决策方法,其特征在于,所述在得到确定性动作后还包括:
初始化第一评论者
Figure 246583DEST_PATH_IMAGE016
、第二评论者
Figure 830011DEST_PATH_IMAGE017
和行动者
Figure 610885DEST_PATH_IMAGE018
;初始化第一评论者的目标函数
Figure 861738DEST_PATH_IMAGE019
、第二评论者的目标函数
Figure 312442DEST_PATH_IMAGE020
和行动者的目标函数
Figure 383166DEST_PATH_IMAGE021
;初始化第一评论者的权重
Figure 702152DEST_PATH_IMAGE022
、第二评论者的权重
Figure 807511DEST_PATH_IMAGE023
和初始化行动者的权重
Figure 429117DEST_PATH_IMAGE024
;以及初始化记忆缓冲区R;
其中
Figure 252716DEST_PATH_IMAGE025
表示动作;
Figure 109814DEST_PATH_IMAGE026
表示状态。
6.根据权利要求5所述的一种无人驾驶车辆的决策方法,其特征在于,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值的过程包括:
目标车辆从起始位置穿越交叉口完成任务或者目标车辆在冲突区域发生碰撞时进入下一个回合时,接收
Figure 335259DEST_PATH_IMAGE027
以及
Figure 124836DEST_PATH_IMAGE028
根据
Figure 170152DEST_PATH_IMAGE029
Figure 830940DEST_PATH_IMAGE030
,在记忆缓冲区R存入
Figure 910892DEST_PATH_IMAGE031
;其中
Figure 874300DEST_PATH_IMAGE032
为执行行动;
Figure 406912DEST_PATH_IMAGE033
为观察奖励;
Figure 871392DEST_PATH_IMAGE034
为观察下一状态奖励;
从R中随机抽取批次数据D;
Figure 805850DEST_PATH_IMAGE035
其中
Figure 940159DEST_PATH_IMAGE036
代表正态分布,
Figure 960068DEST_PATH_IMAGE037
代表截取参数;
Figure 228238DEST_PATH_IMAGE038
代表批量的动作;
Figure 17202DEST_PATH_IMAGE039
代表噪声;
Figure 322413DEST_PATH_IMAGE040
代表动作策略;
Figure 829618DEST_PATH_IMAGE041
Figure 635900DEST_PATH_IMAGE042
代表计算TD的目标值;
Figure 279370DEST_PATH_IMAGE043
代表短期奖励优先级的折扣系数;
更新评论者网络;
Figure 21062DEST_PATH_IMAGE044
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
7.根据权利要求1至6任意一项所述的一种无人驾驶车辆的决策方法,其特征在于,所述方法运行于目标车辆的车载计算平台。
8.一种无人驾驶车辆的决策系统,其特征在于,包括:获取模块、训练模块、计算模块和执行模块;
所述获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
所述训练模块用于将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
所述计算模块用于在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
所述执行模块用于获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
9.根据权利要求8所述的一种无人驾驶车辆的决策系统,其特征在于,所述获取模块执行之后还包括搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
10.根据权利要求8所述的一种无人驾驶车辆的决策系统,其特征在于,所述训练模块执行的详细过程包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
其中,第一时刻观测状态
Figure 749983DEST_PATH_IMAGE001
,t为时刻;
第一时刻之前多个连续时刻观测状态为
Figure 359956DEST_PATH_IMAGE002
其中,t=1,2,3...n;所述时序观测状态
Figure 857933DEST_PATH_IMAGE003
时序观测状态为神经网络提供的环境信息为
Figure 770526DEST_PATH_IMAGE004
;环境信息表达为:
Figure 986744DEST_PATH_IMAGE045
其中
Figure 134828DEST_PATH_IMAGE006
为目标车辆水平方向的相对位置;
Figure 752891DEST_PATH_IMAGE007
为第一冲突车辆垂直方向的相对位置;
Figure 836385DEST_PATH_IMAGE008
为第m冲突车辆垂直方向的相对位置;
Figure 539899DEST_PATH_IMAGE009
为目标车辆速度;
Figure 491674DEST_PATH_IMAGE010
为第一冲突车辆的速度;
Figure 964244DEST_PATH_IMAGE008
为第m冲突车辆的速度;
Figure 218639DEST_PATH_IMAGE011
为目标车辆的状态,包括相对位置和速度;
Figure 409449DEST_PATH_IMAGE012
为第一冲突车辆的状态;
Figure 899336DEST_PATH_IMAGE013
为第m冲突车辆的状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Figure 491991DEST_PATH_IMAGE014
;其中
Figure 648779DEST_PATH_IMAGE015
为目标车辆的加速度。
CN202210683994.6A 2022-06-17 2022-06-17 一种无人驾驶车辆的决策方法和系统 Pending CN114781072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210683994.6A CN114781072A (zh) 2022-06-17 2022-06-17 一种无人驾驶车辆的决策方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210683994.6A CN114781072A (zh) 2022-06-17 2022-06-17 一种无人驾驶车辆的决策方法和系统

Publications (1)

Publication Number Publication Date
CN114781072A true CN114781072A (zh) 2022-07-22

Family

ID=82420637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210683994.6A Pending CN114781072A (zh) 2022-06-17 2022-06-17 一种无人驾驶车辆的决策方法和系统

Country Status (1)

Country Link
CN (1) CN114781072A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN115731690A (zh) * 2022-11-18 2023-03-03 北京理工大学 一种基于图神经网络强化学习的无人公交集群决策方法
CN116911480A (zh) * 2023-07-25 2023-10-20 北京交通大学 基于信任共享机制的车联网场景下的路径预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN114435396A (zh) * 2022-01-07 2022-05-06 北京理工大学前沿技术研究院 一种智能车辆交叉口行为决策方法
CN114537401A (zh) * 2022-01-21 2022-05-27 山东伟创信息技术有限公司 基于元强化学习的智能车辆交叉口决策方法、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN114435396A (zh) * 2022-01-07 2022-05-06 北京理工大学前沿技术研究院 一种智能车辆交叉口行为决策方法
CN114537401A (zh) * 2022-01-21 2022-05-27 山东伟创信息技术有限公司 基于元强化学习的智能车辆交叉口决策方法、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙超: "基于深度强化学习算法的无人驾驶智能控制策略研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731690A (zh) * 2022-11-18 2023-03-03 北京理工大学 一种基于图神经网络强化学习的无人公交集群决策方法
CN115731690B (zh) * 2022-11-18 2023-11-28 北京理工大学 一种基于图神经网络强化学习的无人公交集群决策方法
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN115545350B (zh) * 2022-11-28 2024-01-16 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN116911480A (zh) * 2023-07-25 2023-10-20 北京交通大学 基于信任共享机制的车联网场景下的路径预测方法及系统

Similar Documents

Publication Publication Date Title
US11900797B2 (en) Autonomous vehicle planning
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Zyner et al. Naturalistic driver intention and path prediction using recurrent neural networks
Michelmore et al. Uncertainty quantification with statistical guarantees in end-to-end autonomous driving control
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN110796856B (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN114781072A (zh) 一种无人驾驶车辆的决策方法和系统
CN113561974B (zh) 基于车辆行为交互与道路结构耦合的碰撞风险预测方法
CN114463997A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Azadani et al. A novel multimodal vehicle path prediction method based on temporal convolutional networks
Sun et al. Vehicle turning behavior modeling at conflicting areas of mixed-flow intersections based on deep learning
Meghjani et al. Context and intention aware planning for urban driving
CN115631651A (zh) 一种无管控路口环境的自动驾驶决策规划系统和方法
Zhang et al. Multi-vehicle interaction scenarios generation with interpretable traffic primitives and gaussian process regression
Chen et al. Efficient speed planning for autonomous driving in dynamic environment with interaction point model
Zhou et al. Autonomous vehicles’ intended cooperative motion planning for unprotected turning at intersections
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
Lodh et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
Cai et al. Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection
Tollner et al. Artificial intellgence based decision making of autonomous vehicles before entering roundabout
Arbabi et al. Planning for autonomous driving via interaction-aware probabilistic action policies
Yuan et al. Decision‐Making and Planning Methods for Autonomous Vehicles Based on Multistate Estimations and Game Theory
Huang Safe intention-aware maneuvering of autonomous vehicles
Cai et al. A comprehensive intention prediction method considering vehicle interaction
Zhang et al. Risk analysis of autonomous vehicle test scenarios using a novel analytic hierarchy process method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220722