CN114407925B - 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 - Google Patents

一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 Download PDF

Info

Publication number
CN114407925B
CN114407925B CN202210067361.2A CN202210067361A CN114407925B CN 114407925 B CN114407925 B CN 114407925B CN 202210067361 A CN202210067361 A CN 202210067361A CN 114407925 B CN114407925 B CN 114407925B
Authority
CN
China
Prior art keywords
track
longitudinal
automatic driving
time
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210067361.2A
Other languages
English (en)
Other versions
CN114407925A (zh
Inventor
蔡英凤
杨绍卿
滕成龙
刘泽
孙晓强
陈龙
王海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210067361.2A priority Critical patent/CN114407925B/zh
Publication of CN114407925A publication Critical patent/CN114407925A/zh
Application granted granted Critical
Publication of CN114407925B publication Critical patent/CN114407925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • B60W60/00274Planning or execution of driving tasks using trajectory prediction for other traffic participants considering possible movement changes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/50Barriers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/53Road markings, e.g. lane marker or crosswalk
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/402Type

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法,属于自动驾驶驾驶技术领域,通过机器学习来生成自动驾驶车辆的规划轨迹,使得规划轨迹更加智能化,提高了自动驾驶车辆在复杂场景下的轨迹规划能力,提高了普通采样法进行轨迹规划算法的效率,避免了复杂交通场景下的无效采样;本发明提出使用时空鸟瞰图作为策略网络的输入状态量,使得轨迹规划策略网络能有效的提取周边交通环境特征;本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法,将交通环境、规划器和控制器有效联系起来,实现了三者的有效耦合,使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。

Description

一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系 统及方法
技术领域
本发明属于自动驾驶汽车轨迹规划技术领域,特别涉及了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法。
背景技术
近年来自动驾驶技术得到了迅速发展。它不仅在经济上具有巨大潜力,而且在提高交通效率和驾驶安全方面也具有巨大优势。轨迹规划作为自动驾驶系统中不可避免的一环,对整个自动驾驶车辆的研究具有重要意义。如何根据上层感知和预测结果,准确避开周边障碍物,进行安全和高效的行驶,是对自动驾驶车辆的基本要求。可靠的自动驾驶轨迹规划算法,可以实时指导自动驾驶车辆安全地避开周边障碍物,具有较高的安全和舒适性,能够极大的提高行车效率。现有的规划算法大都是基于人为规则的采样、搜索方法和优化法。一般的类似栅格法的采样方法难以进行完全采样,只能采样到较优的行驶轨迹。而完全的搜索方法,较难考虑到自动驾驶车辆的动力学约束。利用优化法进行轨迹规划算法对车载计算机的算力有较高的要求,每一帧之间轨迹的优化延时较大。因此,目前学术界和工业界在内的大多数自主驾驶研究者都在关注更加智能、安全和可靠的轨迹规划方法。
强化学习通过机器学习的方式,利用环境中提取的状态特征,做出相应的动作输出,进一步获得周边环境的反馈,再通过反馈不断完善自身的方法。目前,越来越多的学者将其应用到自动驾驶领域。利用强化学习训练规划器,训练出直接映射交通环境和规划轨迹的模型,使得该模型成为一种智能的轨迹规划器,能够适应复杂的交通场景,通过环境的反馈不断自我完善,最终规划出的轨迹可以超于一般基于规则的轨迹规划算法。但如何设计一种有效的算法和应用方式,凸显强化学习方法在自动驾驶轨迹规划方面的优势成为了大多数研究学者关注的重点。
发明内容
基于上述问题,本发明设计了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法,利用策略梯度算法,提高自动驾驶车辆行驶安全性,使得自动驾驶车辆的行驶轨迹更加智能化。与策略梯度算法相配合提出的时空鸟瞰图作为状态量,能够加强策略网络特征提取的能力,使得网络收敛更加容易,提高了方法的可行性。
一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,包括两部分:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块。
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块具体设计如下:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线。利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;/>为纵向位移s关于时间t的一阶导,/>为纵向位移s关于时间t的二阶导数;l为横向位移;/>为横向位移关于时间t的一阶导数;/>为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态/>生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块。控制模块控制实车跟踪生成的最终轨迹trajectory。进一步,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t。其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
进一步,所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
所述轨迹规划策略网络πθ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数。
进一步,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法进行优化更新;
进一步,所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励(即加速度的导数),Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数;
进一步,所述纵向速度奖励Rspeed为:
其中γ为奖励函数的折扣因子,为期望的目标车速,/>为每个时刻的规划车速;
进一步,所述纵向加速度奖励Raccleration为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度;
进一步,所述纵向加加速度奖励Rjerk具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加加速度;
进一步,所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
进一步,所述横向舒适度奖励Rcomfort具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的横向加速度;
进一步,所述策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率;
进一步,所述策略网络πθ(z,a)的优化方法为梯度上升法,其中ω为更新步长:
其中优化函数的梯度为:
所述轨迹规划策略网络从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络。策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。
本发明基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法部分在下面具体实施方式里结合实施例描述。
本发明的有益效果为:
(1)本发明通过机器学习来生成自动驾驶车辆的规划轨迹,使得规划轨迹更加智能化,提高了自动驾驶车辆在复杂场景下的轨迹规划能力;
(2)本发明通过机器学习的方法,提高了普通采样法进行轨迹规划算法的效率,避免了复杂交通场景下的无效采样;
(3)本发明提出使用时空鸟瞰图作为策略网络的输入状态量,使得轨迹规划策略网络能有效的提取周边交通环境特征;
(4)本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法,将交通环境、规划器和控制器有效联系起来,实现了三者的有效耦合,使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。
附图说明
图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图;
图2为时空鸟瞰图与规划轨迹具体描述图;
图3为轨迹规划策略网络结构图;
图4为规划器-控制器-环境关系图;
具体实施方式
下面将结合附图说明及具体实施方式具体对本发明作进一步的说明,但本发明的保护范围并不仅限于此。
图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图,具体的流程如下所示:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线。利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测所获得的信息,根据当前时刻感知模块获得的周边障碍物信息生成当前时刻的横向和纵向两个维度的空间鸟瞰图;根据预测模块获得的周边障碍物的预测信息,对当前时刻空间鸟瞰图上障碍进行位置转变,生成未来每个时刻的空间鸟瞰图;最后将各个时刻的空间鸟瞰图在时间维度上进行拼接,生成最终的横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;/>为纵向位移s关于时间t的一阶导,/>为纵向位移s关于时间t的二阶导数;l为横向位移;/>为横向位移关于时间t的一阶导数;/>为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态/>生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块。
图2为时空鸟瞰图与规划轨迹具体描述图,如图所示,所述的时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t。图2中的具体元素包括:(a)自车当前的位置状态;(b)自车规划末状态的位置状态;(c)障碍物;(d)不可行驶区域;(e)可行使区域;(f)参考线;(g)规划轨迹。
所述的三维时空鸟瞰图矩阵的尺寸为(40,400,80)。其中第一维40表示参考线左右各10m的横向范围,横向位移间隔为0.5m;第二维400表示以自车为原点向前纵向200m的范围,纵向位移间隔为0.5m,第三维80表示未来8s内的时间范围,时间间隔为0.1s。
所述的(c)障碍物和(d)不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的(e)可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的(f)参考线在时空鸟瞰图中用1进行表示。具体的,当时空鸟瞰图矩阵中的点[α,β,γ]为-1,表示该点在时空间中存在障碍物或为不可行驶区域;当时空鸟瞰图矩阵中的点[α,β,γ]为0,表示该点在时空间中为可行驶区域;当时空鸟瞰图矩阵中的点[α,β,γ]为1,表示该点为参考线的一个点。在矩阵中,参考线表示的优先级高于(c)障碍物、(d)不可行驶区域和(e)可行驶区域。
所述的(a)自车当前的位置、(b)自车规划末状态的位置、和(g)规划轨迹不在时空鸟瞰图矩阵中作具体的表示。所述(g)规划轨迹会避开所有(c)障碍物、(d)不可行驶区域,到达(b)自车规划末状态的位置。
图3为轨迹规划策略网络结构图,所述的策略网络πθ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数。
所述卷积(CNN)特征提取网络的输入为上述的时空鸟瞰图矩阵,输出为最终提取的环境特征信息。所述的全连接网络(FCN)的输入为卷积(CNN)特征提取网络输出的环境特征信息和自动驾驶汽车的历史轨迹信息,输出为轨迹的末状态
策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率,R(τ)为轨迹τ的奖励函数。具体的,所述奖励R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数。
所述纵向速度奖励Rspeed具体表示为:
其中γ为奖励函数的折扣因子,为期望的目标车速,/>为每个时刻的规划车速。
所述纵向加速度奖励Raccleration具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度。
所述纵向加加速度奖励Rjerk具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划的纵向加加速度。
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移。
所述横向舒适度奖励Rcomfort具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的横向加速度。
所述策略网络πθ(z,a)的优化方法为梯度上升法:
具体的,所述优化目标函数J(π)对θ的导数为:
所述策略网络πθ(z,a)的输出符合正态分布,具体包括均值μ(z,θ)和方差σ(z,θ)两个部分:
执行策略时,从该正态分布采样出动作进行输出并执行。
图4为规划器-控制器-环境关系图。如图4所示,规划器智能体从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给规划器智能体。规划器智能体进行根据R(τ)对策略网络的参数θ进行不断更新优化。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,包括:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块;
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块:根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线,利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的特征鸟瞰图;利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;/>为纵向位移s关于时间t的一阶导数,/>为纵向位移s关于时间t的二阶导数;l为横向位移;/>为横向位移关于时间t的一阶导数;/>为横向位移关于时间t的二阶导数;根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态/>生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态/>生成横向轨迹trajectorylateral;将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块;
所述轨迹规划策略网络πθ(z,a)包括卷积特征提取网络和全连接网络,其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;
所述轨迹规划策略网络πθ(z,a)从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励函数R(τ)的形式反馈给轨迹规划策略网络,策略网络根据R(τ)对策略网络的参数θ进行不断更新优化;
所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数,τ为轨迹;
所述纵向速度奖励Rspeed为:
其中γ为奖励函数的折扣因子,为期望的目标车速,/>为每个时刻的规划车速;
所述纵向加速度奖励Raccleration为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度;
所述纵向加加速度奖励Rjerk具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加加速度;
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
所述横向舒适度奖励Rcomfort具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的横向加速度。
2.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
3.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法实现优化更新。
4.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率。
5.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络πθ(z,a)的优化方法为梯度上升法:
其中优化函数的梯度为:
p(τ,θ)表示在参数θ下每条轨迹τ出现的概率,ω为更新步长。
6.根据权利要求1-5任一项所述的基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,设计基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法和设计轨迹规划策略网络πθ(z,a);
所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法具体包括以下步骤:
(1)根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线;利用预测模块获得动态障碍物在未来0~tend的时间内的位置信息;
(2)将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的时空鸟瞰图;
(3)利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;/>为纵向位移s关于时间t的一阶导数,/>为纵向位移s关于时间t的二阶导数;l为横向位移;/>为横向位移关于时间t的一阶导数;/>为横向位移关于时间t的二阶导数;
(4)根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectorylongitudinal;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectorylateral
(5)将纵向轨迹trajectorylongitudinal和横向轨迹trajectorylateral进行合并生成最终轨迹trajectory发送到控制模块;
所述轨迹规划策略网络πθ(z,a)包括卷积特征提取网络和全连接网络,其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;
所述轨迹规划策略网络从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励函数R(τ)的形式反馈给轨迹规划策略网络,策略网络根据奖励R(τ)对策略网络的参数θ进行不断更新优化;
所述奖励函数R(τ)为:
R(τ)=k1·Rspeed+k2·Raccleration+k3·Rjerk+k4·Rlateral+k5·Rcomfort
其中,Rspeed为纵向速度奖励,Raccleration为纵向加速度奖励,Rjerk为纵向加加速度奖励,Rlateral为横向偏差奖励,Rcomfort为横向舒适度奖励,k1~5为每部分奖励前对应的比例系数,τ为轨迹。
7.根据权利要求6所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;
所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。
8.根据权利要求6所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,所述策略网络πθ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法进行优化更新;
所述纵向速度奖励Rspeed为:
其中γ为奖励函数的折扣因子,为期望的目标车速,/>为每个时刻的规划车速;
所述纵向加速度奖励Raccleration为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度;
所述纵向加加速度奖励Rjerk具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的规划的纵向加加速度;
所述横向偏差奖励Rlateral具体表示为:
其中γ为奖励函数的折扣因子,其中lt为每个时刻的横向位移,lreference为参考线上距离当前时刻规划轨迹点最近点的横向位移;
所述横向舒适度奖励Rcomfort具体表示为:
其中γ为奖励函数的折扣因子,其中为每个时刻的横向加速度。
9.根据权利要求6所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法,其特征在于,所述策略网络πθ(z,a)的优化目标为最大输出规划轨迹的期望回报:
J(π)=∑τp(τ,θ)·R(τ)
其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率;
所述策略网络πθ(z,a)的优化方法为梯度上升法:
ω为更新步长;
其中优化函数的梯度为:
CN202210067361.2A 2022-01-20 2022-01-20 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法 Active CN114407925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210067361.2A CN114407925B (zh) 2022-01-20 2022-01-20 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210067361.2A CN114407925B (zh) 2022-01-20 2022-01-20 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法

Publications (2)

Publication Number Publication Date
CN114407925A CN114407925A (zh) 2022-04-29
CN114407925B true CN114407925B (zh) 2024-05-14

Family

ID=81276281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210067361.2A Active CN114407925B (zh) 2022-01-20 2022-01-20 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法

Country Status (1)

Country Link
CN (1) CN114407925B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016219549A1 (de) * 2015-11-03 2017-05-04 Ford Global Technologies, Llc Verfahren zur Überwachung einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs mit Parallelhybridantrieb sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug
DE102016219544A1 (de) * 2015-11-03 2017-05-04 Ford Global Technologies, Llc Verfahren zur Diagnose einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs in Verbindung mit Niederdruck-Abgasrückführung sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug
WO2019213980A1 (zh) * 2018-05-08 2019-11-14 清华大学 基于行车安全场的车辆智能安全决策方法
CA3076700A1 (fr) * 2019-03-25 2020-09-25 Alstom Transport Technologies Procede d'acquisition de donnees capturees par un module de capture embarque dans un engin mobile suivant une trajectoire predeterminee, programme d'ordinateur et dispositif correspondants
CA3083626A1 (fr) * 2019-04-25 2020-10-25 Transdev Group Dispositif de pilotage pour vehicule automobile, vehicule automobile, procede de commande d'un tel vehicule automobile et programme d'ordinateur associes
CN111845774A (zh) * 2020-07-20 2020-10-30 上海大学 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112721950A (zh) * 2021-01-14 2021-04-30 肖玉连 一种基于深度学习的自主车辆控制方法及系统
CN112721948A (zh) * 2021-01-11 2021-04-30 成都语动未来科技有限公司 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法
CN113386795A (zh) * 2021-07-05 2021-09-14 西安电子科技大学芜湖研究院 一种自动驾驶车辆智能决策及局部轨迹规划方法及其决策系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016219549A1 (de) * 2015-11-03 2017-05-04 Ford Global Technologies, Llc Verfahren zur Überwachung einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs mit Parallelhybridantrieb sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug
DE102016219544A1 (de) * 2015-11-03 2017-05-04 Ford Global Technologies, Llc Verfahren zur Diagnose einer Abgasnachbehandlungsanlage, insbesondere eines NOx-Speicher-Katalysators eines autonom fahrenden Fahrzeugs in Verbindung mit Niederdruck-Abgasrückführung sowie Steuerungseinrichtung für eine Abgasnachbehandlungsanlage und Fahrzeug
WO2019213980A1 (zh) * 2018-05-08 2019-11-14 清华大学 基于行车安全场的车辆智能安全决策方法
CA3076700A1 (fr) * 2019-03-25 2020-09-25 Alstom Transport Technologies Procede d'acquisition de donnees capturees par un module de capture embarque dans un engin mobile suivant une trajectoire predeterminee, programme d'ordinateur et dispositif correspondants
CA3083626A1 (fr) * 2019-04-25 2020-10-25 Transdev Group Dispositif de pilotage pour vehicule automobile, vehicule automobile, procede de commande d'un tel vehicule automobile et programme d'ordinateur associes
CN111845774A (zh) * 2020-07-20 2020-10-30 上海大学 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112721948A (zh) * 2021-01-11 2021-04-30 成都语动未来科技有限公司 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法
CN112721950A (zh) * 2021-01-14 2021-04-30 肖玉连 一种基于深度学习的自主车辆控制方法及系统
CN113386795A (zh) * 2021-07-05 2021-09-14 西安电子科技大学芜湖研究院 一种自动驾驶车辆智能决策及局部轨迹规划方法及其决策系统

Also Published As

Publication number Publication date
CN114407925A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109263639B (zh) 基于状态栅格法的驾驶路径规划方法
EP4201781A1 (en) Method and apparatus for planning trajectory of vehicle, storage medium, and device
CN110796856A (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
US20200189597A1 (en) Reinforcement learning based approach for sae level-4 automated lane change
CN106371439B (zh) 一种统一的自动驾驶横向规划方法与系统
CN112906542B (zh) 一种基于强化学习的无人车避障方法及装置
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113420368A (zh) 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法
US20220155732A9 (en) System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints
CN113715842B (zh) 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN111625989A (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN112327888B (zh) 路径规划方法、装置、电子设备和存储介质
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
CN110377041B (zh) 参考线生成方法、装置、终端设备及存储介质
CN114407925B (zh) 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法
CN116524745B (zh) 一种云边协同区域交通信号动态配时系统及方法
CN113525375A (zh) 一种基于人工势场法的车辆换道方法及装置
CN116380095A (zh) 自动驾驶车辆的路径规划方法、装置、设备、车辆及介质
CN115240475A (zh) 融合飞行数据和雷达图像的航空器进近规划方法及装置
CN115164890A (zh) 一种基于模仿学习的群体无人机自主运动规划方法
CN114117739A (zh) 基于真实数据的交通流仿真场景构建方法和系统
Luo et al. Platoon control of automatic vehicles based on deep deterministic policy gradient
CN116954214A (zh) 基于孪生表征学习的多智能体强化学习无人驾驶编队方法
Zhang et al. A Survey About the Decision-making of Self-driving Based on Deep Reinforcement Learning
CN117666559B (zh) 自主车辆横纵向决策路径规划方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant