CN114407925A - 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 - Google Patents
一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 Download PDFInfo
- Publication number
- CN114407925A CN114407925A CN202210067361.2A CN202210067361A CN114407925A CN 114407925 A CN114407925 A CN 114407925A CN 202210067361 A CN202210067361 A CN 202210067361A CN 114407925 A CN114407925 A CN 114407925A
- Authority
- CN
- China
- Prior art keywords
- track
- longitudinal
- time
- network
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000006073 displacement reaction Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000001133 acceleration Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 15
- 230000036461 convulsion Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 4
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0027—Planning or execution of driving tasks using trajectory prediction for other traffic participants
- B60W60/00274—Planning or execution of driving tasks using trajectory prediction for other traffic participants considering possible movement changes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/50—Barriers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/53—Road markings, e.g. lane marker or crosswalk
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/402—Type
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法,属于自动驾驶驾驶技术领域,通过机器学习来生成自动驾驶车辆的规划轨迹,使得规划轨迹更加智能化,提高了自动驾驶车辆在复杂场景下的轨迹规划能力,提高了普通采样法进行轨迹规划算法的效率,避免了复杂交通场景下的无效采样;本发明提出使用时空鸟瞰图作为策略网络的输入状态量,使得轨迹规划策略网络能有效的提取周边交通环境特征;本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法,将交通环境、规划器和控制器有效联系起来,实现了三者的有效耦合,使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。
Description
技术领域
本发明属于自动驾驶汽车轨迹规划技术领域,特别涉及了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法。
背景技术
近年来自动驾驶技术得到了迅速发展。它不仅在经济上具有巨大潜力,而且在提高交通效率和驾驶安全方面也具有巨大优势。轨迹规划作为自动驾驶系统中不可避免的一环,对整个自动驾驶车辆的研究具有重要意义。如何根据上层感知和预测结果,准确避开周边障碍物,进行安全和高效的行驶,是对自动驾驶车辆的基本要求。可靠的自动驾驶轨迹规划算法,可以实时指导自动驾驶车辆安全地避开周边障碍物,具有较高的安全和舒适性,能够极大的提高行车效率。现有的规划算法大都是基于人为规则的采样、搜索方法和优化法。一般的类似栅格法的采样方法难以进行完全采样,只能采样到较优的行驶轨迹。而完全的搜索方法,较难考虑到自动驾驶车辆的动力学约束。利用优化法进行轨迹规划算法对车载计算机的算力有较高的要求,每一帧之间轨迹的优化延时较大。因此,目前学术界和工业界在内的大多数自主驾驶研究者都在关注更加智能、安全和可靠的轨迹规划方法。
强化学习通过机器学习的方式,利用环境中提取的状态特征,做出相应的动作输出,进一步获得周边环境的反馈,再通过反馈不断完善自身的方法。目前,越来越多的学者将其应用到自动驾驶领域。利用强化学习训练规划器,训练出直接映射交通环境和规划轨迹的模型,使得该模型成为一种智能的轨迹规划器,能够适应复杂的交通场景,通过环境的反馈不断自我完善,最终规划出的轨迹可以超于一般基于规则的轨迹规划算法。但如何设计一种有效的算法和应用方式,凸显强化学习方法在自动驾驶轨迹规划方面的优势成为了大多数研究学者关注的重点。
发明内容
基于上述问题,本发明设计了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法,利用策略梯度算法,提高自动驾驶车辆行驶安全性,使得自动驾驶车辆的行驶轨迹更加智能化。与策略梯度算法相配合提出的时空鸟瞰图作为状态量,能够加强策略网络特征提取的能力,使得网络收敛更加容易,提高了方法的可行性。
一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,包括两部分:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块。
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块具体设计如下:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线。利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;l为横向位移;为横向位移关于时间t的一阶导数;为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral;
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块。控制模块控制实车跟踪生成的最终轨迹trajectory。进一步,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t。其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
进一步,所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
所述轨迹规划策略网络πθ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数。
进一步,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法进行优化更新;
进一步,所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励(即加速度的导数),Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数;
进一步,所述纵向速度奖励Rspeed为:
进一步,所述纵向加速度奖励Raccleration为:
进一步,所述纵向加加速度奖励Rjerk具体表示为:
进一步,所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
进一步,所述横向舒适度奖励Rcomfort具体表示为:
进一步,所述策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率;
进一步,所述策略网络πθ(z,a)的优化方法为梯度上升法,其中ω为更新步长:
所述轨迹规划策略网络从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络。策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。
本发明基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法部分在下面具体实施方式里结合实施例描述。
本发明的有益效果为:
(1)本发明通过机器学习来生成自动驾驶车辆的规划轨迹,使得规划轨迹更加智能化,提高了自动驾驶车辆在复杂场景下的轨迹规划能力;
(2)本发明通过机器学习的方法,提高了普通采样法进行轨迹规划算法的效率,避免了复杂交通场景下的无效采样;
(3)本发明提出使用时空鸟瞰图作为策略网络的输入状态量,使得轨迹规划策略网络能有效的提取周边交通环境特征;
(4)本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法,将交通环境、规划器和控制器有效联系起来,实现了三者的有效耦合,使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。
附图说明
图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图;
图2为时空鸟瞰图与规划轨迹具体描述图;
图3为轨迹规划策略网络结构图;
图4为规划器-控制器-环境关系图;
具体实施方式
下面将结合附图说明及具体实施方式具体对本发明作进一步的说明,但本发明的保护范围并不仅限于此。
图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图,具体的流程如下所示:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线。利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测所获得的信息,根据当前时刻感知模块获得的周边障碍物信息生成当前时刻的横向和纵向两个维度的空间鸟瞰图;根据预测模块获得的周边障碍物的预测信息,对当前时刻空间鸟瞰图上障碍进行位置转变,生成未来每个时刻的空间鸟瞰图;最后将各个时刻的空间鸟瞰图在时间维度上进行拼接,生成最终的横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;l为横向位移;为横向位移关于时间t的一阶导数;为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral;
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块。
图2为时空鸟瞰图与规划轨迹具体描述图,如图所示,所述的时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t。图2中的具体元素包括:(a)自车当前的位置状态;(b)自车规划末状态的位置状态;(c)障碍物;(d)不可行驶区域;(e)可行使区域;(f)参考线;(g)规划轨迹。
所述的三维时空鸟瞰图矩阵的尺寸为(40,400,80)。其中第一维40表示参考线左右各10m的横向范围,横向位移间隔为0.5m;第二维400表示以自车为原点向前纵向200m的范围,纵向位移间隔为0.5m,第三维80表示未来8s内的时间范围,时间间隔为0.1s。
所述的(c)障碍物和(d)不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的(e)可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的(f)参考线在时空鸟瞰图中用1进行表示。具体的,当时空鸟瞰图矩阵中的点[α,β,γ]为-1,表示该点在时空间中存在障碍物或为不可行驶区域;当时空鸟瞰图矩阵中的点[α,β,γ]为0,表示该点在时空间中为可行驶区域;当时空鸟瞰图矩阵中的点[α,β,γ]为1,表示该点为参考线的一个点。在矩阵中,参考线表示的优先级高于(c)障碍物、(d)不可行驶区域和(e)可行驶区域。
所述的(a)自车当前的位置、(b)自车规划末状态的位置、和(g)规划轨迹不在时空鸟瞰图矩阵中作具体的表示。所述(g)规划轨迹会避开所有(c)障碍物、(d)不可行驶区域,到达(b)自车规划末状态的位置。
图3为轨迹规划策略网络结构图,所述的策略网络πθ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数。
所述卷积(CNN)特征提取网络的输入为上述的时空鸟瞰图矩阵,输出为最终提取的环境特征信息。所述的全连接网络(FCN)的输入为卷积(CNN)特征提取网络输出的环境特征信息和自动驾驶汽车的历史轨迹信息,输出为轨迹的末状态
策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率,R(τ)为轨迹τ的奖励函数。具体的,所述奖励R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数。
所述纵向速度奖励Rspeed具体表示为:
所述纵向加速度奖励Raccleration具体表示为:
所述纵向加加速度奖励Rjerk具体表示为:
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移。
所述横向舒适度奖励Rcomfort具体表示为:
所述策略网络πθ(z,a)的优化方法为梯度上升法:
具体的,所述优化目标函数J(π)对θ的导数为:
所述策略网络πθ(z,a)的输出符合正态分布,具体包括均值μ(z,θ)和方差σ(z,θ)两个部分:
图4为规划器-控制器-环境关系图。如图4所示,规划器智能体从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给规划器智能体。规划器智能体进行根据R(τ)对策略网络的参数θ进行不断更新优化。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,包括:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块;
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块:根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线,利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的特征鸟瞰图;利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;l为横向位移;为横向位移关于时间t的二阶导数;根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral;将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块;
所述轨迹规划策略网络πθ(z,a)包括卷积(CNN)特征提取网络和全连接网络(FCN),其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;
所述轨迹规划策略网络πθ(z,a)从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络,策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。
2.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
3.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法实现优化更新;
所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数。
4.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述纵向速度奖励Rspeed为:
所述纵向加速度奖励Raccleration为:
所述纵向加加速度奖励Rjerk具体表示为:
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
所述横向舒适度奖励Rcomfort具体表示为:
5.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率。
7.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,设计基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法和设计轨迹规划策略网络πθ(z,a);
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法具体包括以下步骤:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线。利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;1为横向位移;为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral;
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块;
所述轨迹规划策略网络πθ(z,a)包括卷积(CNN)特征提取网络和全连接网络(FCN),其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;
所述轨迹规划策略网络从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络,策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。
8.根据权利要求7所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
9.根据权利要求7所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法进行优化更新;
所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数;
所述纵向速度奖励Rspeed为:
所述纵向加速度奖励Raccleration为:
所述纵向加加速度奖励Rjerk具体表示为:
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
所述横向舒适度奖励Rcomfort具体表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210067361.2A CN114407925B (zh) | 2022-01-20 | 2022-01-20 | 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210067361.2A CN114407925B (zh) | 2022-01-20 | 2022-01-20 | 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114407925A true CN114407925A (zh) | 2022-04-29 |
CN114407925B CN114407925B (zh) | 2024-05-14 |
Family
ID=81276281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210067361.2A Active CN114407925B (zh) | 2022-01-20 | 2022-01-20 | 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114407925B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016219549A1 (de) * | 2015-11-03 | 2017-05-04 | Ford Global Technologies, Llc | Verfahren zur Überwachung einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs mit Parallelhybridantrieb sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug |
DE102016219544A1 (de) * | 2015-11-03 | 2017-05-04 | Ford Global Technologies, Llc | Verfahren zur Diagnose einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs in Verbindung mit Niederdruck-Abgasrückführung sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug |
WO2019213980A1 (zh) * | 2018-05-08 | 2019-11-14 | 清华大学 | 基于行车安全场的车辆智能安全决策方法 |
CA3076700A1 (fr) * | 2019-03-25 | 2020-09-25 | Alstom Transport Technologies | Procede d'acquisition de donnees capturees par un module de capture embarque dans un engin mobile suivant une trajectoire predeterminee, programme d'ordinateur et dispositif correspondants |
CA3083626A1 (fr) * | 2019-04-25 | 2020-10-25 | Transdev Group | Dispositif de pilotage pour vehicule automobile, vehicule automobile, procede de commande d'un tel vehicule automobile et programme d'ordinateur associes |
CN111845774A (zh) * | 2020-07-20 | 2020-10-30 | 上海大学 | 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN112721950A (zh) * | 2021-01-14 | 2021-04-30 | 肖玉连 | 一种基于深度学习的自主车辆控制方法及系统 |
CN112721948A (zh) * | 2021-01-11 | 2021-04-30 | 成都语动未来科技有限公司 | 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法 |
CN113386795A (zh) * | 2021-07-05 | 2021-09-14 | 西安电子科技大学芜湖研究院 | 一种自动驾驶车辆智能决策及局部轨迹规划方法及其决策系统 |
-
2022
- 2022-01-20 CN CN202210067361.2A patent/CN114407925B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016219549A1 (de) * | 2015-11-03 | 2017-05-04 | Ford Global Technologies, Llc | Verfahren zur Überwachung einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs mit Parallelhybridantrieb sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug |
DE102016219544A1 (de) * | 2015-11-03 | 2017-05-04 | Ford Global Technologies, Llc | Verfahren zur Diagnose einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs in Verbindung mit Niederdruck-Abgasrückführung sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug |
WO2019213980A1 (zh) * | 2018-05-08 | 2019-11-14 | 清华大学 | 基于行车安全场的车辆智能安全决策方法 |
CA3076700A1 (fr) * | 2019-03-25 | 2020-09-25 | Alstom Transport Technologies | Procede d'acquisition de donnees capturees par un module de capture embarque dans un engin mobile suivant une trajectoire predeterminee, programme d'ordinateur et dispositif correspondants |
CA3083626A1 (fr) * | 2019-04-25 | 2020-10-25 | Transdev Group | Dispositif de pilotage pour vehicule automobile, vehicule automobile, procede de commande d'un tel vehicule automobile et programme d'ordinateur associes |
CN111845774A (zh) * | 2020-07-20 | 2020-10-30 | 上海大学 | 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN112721948A (zh) * | 2021-01-11 | 2021-04-30 | 成都语动未来科技有限公司 | 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法 |
CN112721950A (zh) * | 2021-01-14 | 2021-04-30 | 肖玉连 | 一种基于深度学习的自主车辆控制方法及系统 |
CN113386795A (zh) * | 2021-07-05 | 2021-09-14 | 西安电子科技大学芜湖研究院 | 一种自动驾驶车辆智能决策及局部轨迹规划方法及其决策系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114407925B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4201781A1 (en) | Method and apparatus for planning trajectory of vehicle, storage medium, and device | |
WO2018176593A1 (zh) | 一种面向无人自行车的局部避障路径规划方法 | |
WO2023155231A1 (zh) | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 | |
CN106371439B (zh) | 一种统一的自动驾驶横向规划方法与系统 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN113264059B (zh) | 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN115303297B (zh) | 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
CN113552867B (zh) | 一种运动轨迹的规划方法及轮式移动设备 | |
CN113420368A (zh) | 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN114859905A (zh) | 一种基于人工势场法和强化学习的局部路径规划方法 | |
CN111625989A (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN116382297A (zh) | 基于深度强化学习策略的带约束的混合车辆编队控制方法 | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning | |
CN116524745B (zh) | 一种云边协同区域交通信号动态配时系统及方法 | |
CN114407925A (zh) | 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
CN116385909A (zh) | 一种基于深度强化学习的无人机目标跟踪方法 | |
CN116382150A (zh) | 一种基于深度强化学习决策系统的远程驾驶方法和装置、电子设备 | |
CN115164890A (zh) | 一种基于模仿学习的群体无人机自主运动规划方法 | |
CN114912693A (zh) | 一种基于多模态预测的自动驾驶汽车运动规划方法 | |
CN111596668A (zh) | 基于逆向强化学习的移动机器人拟人化路径规划方法 | |
Zheng et al. | Policy-based monocular vision autonomous quadrotor obstacle avoidance method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |