CN114781072A - 一种无人驾驶车辆的决策方法和系统 - Google Patents
一种无人驾驶车辆的决策方法和系统 Download PDFInfo
- Publication number
- CN114781072A CN114781072A CN202210683994.6A CN202210683994A CN114781072A CN 114781072 A CN114781072 A CN 114781072A CN 202210683994 A CN202210683994 A CN 202210683994A CN 114781072 A CN114781072 A CN 114781072A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- time
- decision
- target vehicle
- observation state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 230000007613 environmental effect Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 230000001133 acceleration Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18159—Traversing an intersection
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0011—Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/12—Lateral speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4041—Position
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4042—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4043—Lateral speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/12—Timing analysis or timing optimisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Geometry (AREA)
- Transportation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Aviation & Aerospace Engineering (AREA)
- Algebra (AREA)
Abstract
本发明提出了一种无人驾驶车辆的决策方法和系统,该方法包括获取交叉口环境下第一时刻观测状态;将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。基于该方法,还提出了决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率。
Description
技术领域
本发明属于无人驾驶决策技术领域,特别涉及一种无人驾驶车辆的决策方法和系统。
背景技术
在安全和效率方面,无人驾驶车辆比有人驾驶车辆具有巨大优势。城市环境是自主车辆必须处理的最复杂的场景,特别是无信号灯的十字路口。城市十字路口的决策更具挑战性,因为穿越行为是一个强烈的时间约束、多目标的优化过程。当交通参与者在无信号灯的十字路口一个接一个地通过冲突区时,车辆面临着潜在的威胁。因此,研究无信号灯交叉口的通行决策具有重要的实际意义。由于机器学习的发展,基于学习的方法在自主车辆的决策研究中得到了广泛关注。然而在实际应用中,强化学习决策算法的学习效率和泛化能力还需要进一步提高,基于学习的决策方法的性能受到数据集质量的限制,还需要进一步改进。
现有技术中给出了不同的解决方案,在方案一中针对不同的交通参与者之间会不可避免地产生时间或空间上的冲突问题,对智能驾驶车辆在城市交叉口左转时潜在的冲突行为进行分析并建立决策模型。考虑了车辆运动模式并基于高斯过程回归模型(GPR)建立了直行车辆长时轨迹预测模型,结合轨迹预测提出了基于冲突消解的智能驾驶车辆决策流程模型和考虑多因素的驾驶动作选择方法。在方案二中针对交叉口穿越行为,引入人类驾驶经验规律在指导在线强化学习,利用Q-learning和NQL算法实现最优策略迭代。在方案二中针对端到端学习,提出利用DDPG模型实现从感知信息到控制信息的决策,明显优于DQN模型。但是现有技术具有两点不足之处:第一,针对交叉口场景的传统方法缺乏算法灵活性,主要依靠碰撞时间TTC来进行避障判断,针对交叉口场景的深度学习方法缺乏泛化性,对数据质量要求较高。第二,现有的基于强化学习的决策模型虽然考虑复杂化环境下的各类障碍物,但仍然缺乏高效的收敛性和交叉口环境的泛化性能。例如,有些模型在简单场景的训练时间较长,收敛速度慢;有些模型无法具备场景适应性,周围车辆的位置变化导致决策模型无法安全通行。
发明内容
为了解决上述技术问题,本发明提出了一种无人驾驶车辆的决策方法和系统。融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
为实现上述目的,本发明采用以下技术方案:
一种无人驾驶车辆的决策方法,包括以下步骤:
获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
进一步的,在获取交叉口环境下第一时刻观测状态之后,搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
进一步的,所述时序观测状态生成的方法包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
进一步的,所述在得到确定性动作后还包括:
进一步的,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值的过程包括:
从R中随机抽取批次数据D;
更新评论者网络;
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
进一步的,所述方法运行于目标车辆的车载计算平台。
本发明还提出了一种无人驾驶车辆的决策系统,包括:获取模块、训练模块、计算模块和执行模块;
所述获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
所述训练模块用于将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
所述计算模块用于在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
所述执行模块用于获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
进一步的,所述获取模块执行之后还包括搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
进一步的,所述训练模块执行的详细过程包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种无人驾驶车辆的决策方法和系统,该方法包括以下步骤:
获取交叉口环境下第一时刻观测状态;第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;环境车辆为与目标车辆存在冲突的车辆;将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。基于一种无人驾驶车辆的决策方法,还提出了一种无人驾驶车辆的决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
本发明利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络,实现探索网络与行动者网络叠加生成更优动作靠近,实现算法的快速收敛。
本发明采用时间双延迟深度确定性策略梯度算法,将MDP模型扩展序列化,利用预测的思想,将LSTM神经网络放入TD3框架中,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略,实现算法的泛化性。
附图说明
如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图;
如图2为本发明实施例2一种无人驾驶车辆的决策系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种无人驾驶车辆的决策方法。融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性;如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图,该方法运行于无人驾驶目标车辆的车载计算平台。
在步骤S100中,获取交叉口环境下第一时刻观测状态;第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;环境车辆为与目标车辆存在冲突的车辆;
在复杂城市交叉口场景,目标车辆在到达无信号交叉口前,目标车辆的车载计算平台确定交叉口环境下与自主车辆存在潜在冲突的环境车辆的第一时刻观测状态。观测状态即为训练模型中的状态空间。
在步骤S110中,将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作。
时序观测状态生成的方法包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
本发明实施例1中,选择典型城市交叉口,双向4车道,设定所有车辆的初始速度为40km/h。周围的车辆以恒定的速度行驶。本车的初始位置被随机设置为从停车线到停车线后50米。周围车辆的初始位置也是随机设置的,但它们的间距被设置为20米,符合城市交叉口的间距,随机设置的目的是为了创造一个真实的交通模拟,增加决策泛化的能力。目的是让目标车辆根据周围车辆的状态,自主地选择提前通过交通流,或从交通流中间通过,或从交通流后通过。
时序观测状态为神经网络提供的环境信息为
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
在步骤S120中,在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值。
本发明首先基于元探索深度确定性策略梯度算法进行建模,元探索策略取代传统的OU噪声网络生成一组数据并将其送入记忆存储区,评论者网络从中学习经验。目标是改进原有的actor网络使得它能生成大量更有用的数据,使得原有DDPG尽可能快地收敛和提高奖励值。
其中表示一个新的策略更新,在π的数据基础上,从记忆存储区中采样的新策略。表示动作,表示下一时刻的动作,表示状态,表示下一时刻的状态,,分别表示actor和critic的网络参数。与行为者策略不同的是,元探索策略是基于随机策略梯度的,我们可以计算出以下梯度:
在基于价值的强化学习方法中,已知价值函数的近似误差会导致高估的价值估计,最终导致得到一个不完美的策略。为了很好地处理这个问题,双延迟深度确定性策略梯度(TD3)算法应运而生,本发明提出基于元探索时间双延迟深度确定性策略梯度算法模型。具体而言,元探索采用上述的模型。
传统的马尔可夫决策过程只与当前状态有关。然而,忘记以前的状态在自主驾驶中是不合理的,因为自主驾驶任务与时间相关。本发明使用多帧数据作为输入来训练自主车辆。算法策略将当前状态和过去一段时间的状态考虑在内,并将预测信息整合到MDP模型中。在此基础上,本发明提出了一种改进的TD3算法,称为时间双延迟的深度确定型策略梯度(T-TD3),其中TD3算法与DDPG算法的主要不同在于多了一个评论者网络。
第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
本发明将DDPG基础框架中原有的网络由全连接神经网络修改为LSTM神经网络,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略。与基于目标状态识别的决策方法相比,基于行动预测的算法的实时性更好,泛化性更强。其中DDPG为深度确定性策略梯度。
所以本发明实现的过程为:
从R中随机抽取批次数据D;
更新评论者网络;
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
在步骤S130中,获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。
本发明具体的融合表现为元探索学习算法与时间双延迟深度确定性策略梯度算法同时放入强化学习框架,即两种算法融合到一个决策模型中。元探索学习算法的意义主要在于替换强化学习框架中环境噪声生成的部分,使决策模型在训练时能尽可能快地收敛和提高奖励值。时间双延迟深度确定性策略梯度算法替换原有强化学习框架中神经网络的部分,将DDPG中神经网络结构替换成T-TD3的神经网络结构,构建基于时序的决策模型,同样使决策模型在训练时收敛更快和奖励值更高。
本发明实施例1提出的一种无人驾驶车辆的决策方法,融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
实施例2
基于本发明实施例1提出的一种无人驾驶车辆的决策方法,本发明实施例2还提出了一种无人驾驶车辆的决策系统,该系统包括获取模块、训练模块、计算模块和执行模块;
获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
训练模块用于将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
计算模块用于在得到确定性动作后,接收时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
执行模块用于获取第二时刻观测状态共同形成预测信息,更新时序观测状态,重新执行决策模型,更新奖励值直到目标车辆穿越交叉口环境。
本发明实施例2中每个模块将实施例1中的方法模块化,详细的过程参照实施例1中方法的实现过程。
本发明实施例2提出的一种无人驾驶车辆的决策系统,融合元探索学习算法与时间双延迟深度确定性策略梯度算法,有效提升车辆通行安全和效率、提升算法泛化能力,提高系统实时性。
本发明实施例2提出的一种无人驾驶车辆的决策系统,利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络,实现探索网络与行动者网络叠加生成更优动作靠近,实现算法的快速收敛。
本发明实施例2提出的一种无人驾驶车辆的决策系统,采用时间双延迟深度确定性策略梯度算法,将MDP模型扩展序列化,利用预测的思想,将LSTM神经网络放入TD3框架中,通过强化学习与环境的交互过程考虑周围车辆的运动趋势,并执行适当的策略,实现算法的泛化性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种无人驾驶车辆的决策方法,其特征在于,包括以下步骤:
获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境 。
2.根据权利要求1所述的一种无人驾驶车辆的决策方法,其特征在于,在获取交叉口环境下第一时刻观测状态之后,搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
6.根据权利要求5所述的一种无人驾驶车辆的决策方法,其特征在于,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值的过程包括:
从R中随机抽取批次数据D;
更新评论者网络;
如果时刻t能够整除2,那么更新第一评论者网络、第二评论者网络和行动者网络。
7.根据权利要求1至6任意一项所述的一种无人驾驶车辆的决策方法,其特征在于,所述方法运行于目标车辆的车载计算平台。
8.一种无人驾驶车辆的决策系统,其特征在于,包括:获取模块、训练模块、计算模块和执行模块;
所述获取模块用于获取交叉口环境下第一时刻观测状态;所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置,以及环境车辆的速度和环境车辆的位置;所述环境车辆为与目标车辆存在冲突的车辆;
所述训练模块用于将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作;
所述计算模块用于在得到确定性动作后,接收所述时序观测状态,并将预测信息输入马尔科夫模型中,以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型,计算确定性动作后决策模型的奖励值;
所述执行模块用于获取第二时刻观测状态共同形成预测信息,更新所述时序观测状态,重新执行所述决策模型,更新奖励值直到目标车辆穿越交叉口环境。
9.根据权利要求8所述的一种无人驾驶车辆的决策系统,其特征在于,所述获取模块执行之后还包括搭建无信号灯交叉口通行仿真场景,利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。
10.根据权利要求8所述的一种无人驾驶车辆的决策系统,其特征在于,所述训练模块执行的详细过程包括:
基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态;第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态;
设定交叉口环境下冲突车辆之外的车辆状态为0,则目标车辆的加速度为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210683994.6A CN114781072A (zh) | 2022-06-17 | 2022-06-17 | 一种无人驾驶车辆的决策方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210683994.6A CN114781072A (zh) | 2022-06-17 | 2022-06-17 | 一种无人驾驶车辆的决策方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114781072A true CN114781072A (zh) | 2022-07-22 |
Family
ID=82420637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210683994.6A Pending CN114781072A (zh) | 2022-06-17 | 2022-06-17 | 一种无人驾驶车辆的决策方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114781072A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545350A (zh) * | 2022-11-28 | 2022-12-30 | 湖南工商大学 | 综合深度神经网络与强化学习的车辆路径问题求解方法 |
CN115731690A (zh) * | 2022-11-18 | 2023-03-03 | 北京理工大学 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
CN116911480A (zh) * | 2023-07-25 | 2023-10-20 | 北京交通大学 | 基于信任共享机制的车联网场景下的路径预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN114435396A (zh) * | 2022-01-07 | 2022-05-06 | 北京理工大学前沿技术研究院 | 一种智能车辆交叉口行为决策方法 |
CN114537401A (zh) * | 2022-01-21 | 2022-05-27 | 山东伟创信息技术有限公司 | 基于元强化学习的智能车辆交叉口决策方法、设备及介质 |
-
2022
- 2022-06-17 CN CN202210683994.6A patent/CN114781072A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN114435396A (zh) * | 2022-01-07 | 2022-05-06 | 北京理工大学前沿技术研究院 | 一种智能车辆交叉口行为决策方法 |
CN114537401A (zh) * | 2022-01-21 | 2022-05-27 | 山东伟创信息技术有限公司 | 基于元强化学习的智能车辆交叉口决策方法、设备及介质 |
Non-Patent Citations (1)
Title |
---|
孙超: "基于深度强化学习算法的无人驾驶智能控制策略研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731690A (zh) * | 2022-11-18 | 2023-03-03 | 北京理工大学 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
CN115731690B (zh) * | 2022-11-18 | 2023-11-28 | 北京理工大学 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
CN115545350A (zh) * | 2022-11-28 | 2022-12-30 | 湖南工商大学 | 综合深度神经网络与强化学习的车辆路径问题求解方法 |
CN115545350B (zh) * | 2022-11-28 | 2024-01-16 | 湖南工商大学 | 综合深度神经网络与强化学习的车辆路径问题求解方法 |
CN116911480A (zh) * | 2023-07-25 | 2023-10-20 | 北京交通大学 | 基于信任共享机制的车联网场景下的路径预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900797B2 (en) | Autonomous vehicle planning | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Zyner et al. | Naturalistic driver intention and path prediction using recurrent neural networks | |
Michelmore et al. | Uncertainty quantification with statistical guarantees in end-to-end autonomous driving control | |
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110796856B (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
CN114781072A (zh) | 一种无人驾驶车辆的决策方法和系统 | |
CN113561974B (zh) | 基于车辆行为交互与道路结构耦合的碰撞风险预测方法 | |
CN114463997A (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
Azadani et al. | A novel multimodal vehicle path prediction method based on temporal convolutional networks | |
Sun et al. | Vehicle turning behavior modeling at conflicting areas of mixed-flow intersections based on deep learning | |
Meghjani et al. | Context and intention aware planning for urban driving | |
CN115631651A (zh) | 一种无管控路口环境的自动驾驶决策规划系统和方法 | |
Zhang et al. | Multi-vehicle interaction scenarios generation with interpretable traffic primitives and gaussian process regression | |
Chen et al. | Efficient speed planning for autonomous driving in dynamic environment with interaction point model | |
Zhou et al. | Autonomous vehicles’ intended cooperative motion planning for unprotected turning at intersections | |
Masmoudi et al. | Autonomous car-following approach based on real-time video frames processing | |
Lodh et al. | Autonomous vehicular overtaking maneuver: A survey and taxonomy | |
Cai et al. | Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection | |
Tollner et al. | Artificial intellgence based decision making of autonomous vehicles before entering roundabout | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
Yuan et al. | Decision‐Making and Planning Methods for Autonomous Vehicles Based on Multistate Estimations and Game Theory | |
Huang | Safe intention-aware maneuvering of autonomous vehicles | |
Cai et al. | A comprehensive intention prediction method considering vehicle interaction | |
Zhang et al. | Risk analysis of autonomous vehicle test scenarios using a novel analytic hierarchy process method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220722 |