CN114564016A - 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 - Google Patents

一种结合路径规划和强化学习的导航避障控制方法、系统及模型 Download PDF

Info

Publication number
CN114564016A
CN114564016A CN202210176732.0A CN202210176732A CN114564016A CN 114564016 A CN114564016 A CN 114564016A CN 202210176732 A CN202210176732 A CN 202210176732A CN 114564016 A CN114564016 A CN 114564016A
Authority
CN
China
Prior art keywords
vehicle
navigation
reinforcement learning
speed
navigation point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210176732.0A
Other languages
English (en)
Inventor
蔡英凤
周熔
刘擎超
孙晓强
李祎承
王海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210176732.0A priority Critical patent/CN114564016A/zh
Publication of CN114564016A publication Critical patent/CN114564016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/09Taking automatic action to avoid collision, e.g. braking and steering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • B60W2050/0033Single-track, 2D vehicle model, i.e. two-wheel bicycle model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/14Yaw
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/806Relative heading
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2720/00Output or target parameters relating to overall vehicle dynamics
    • B60W2720/10Longitudinal speed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种结合路径规划和强化学习的导航避障控制方法、系统及模型,将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪,实现基于规则的路径规划算法与深度强化学习的结合,可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。本发明与现有的PID+LQR控制策略相比,不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比,不过分依赖被控对象的模型精度,同时求解过程的复杂性大大降低,提高了车载的实时计算效率。本发明与端到端的强化学习相比,结合了车辆的运动学模型,具有可解释性,同时也大大提高了车辆导航过程中的安全性。

Description

一种结合路径规划和强化学习的导航避障控制方法、系统及 模型
技术领域
本发明属于人工智能中的自动驾驶领域,涉及一种结合路径规划和强化学习的导航避障控制方法、系统及模型。
背景技术
作为目前人工智能领域的一个前沿热点技术,自动驾驶是一个集环境感知、决策规划和动力学控制三部分为一体的复杂系统。但是目前自动驾驶技术的发展面临着多维度的瓶颈和挑战,在决策和控制方面主要表现为自动驾驶车辆难以应对复杂多变的交通场景。
目前,智能车辆的决策和控制算法多基于规则设计,人为规定车辆在各场景下的行为模式,然而车辆的驾驶场景具有很强的不确定性以及车辆自身非线性的问题,导致在复杂场景应用中规则数量呈指数级上升且互相之间可能发生冲突,因此传统的基于规则的决策控制方法已无法完全满足自动驾驶技术发展的需求。为了提高复杂场景下决策和控制算法的泛化性,相关学者尝试利用数据驱动的方式来实现自动驾驶车辆的智能决策和控制。深度强化学习(Deep Reinforcement Learning,DRL)是一种典型的经验驱动、自主学习的智能控制方法,被广泛应用于解决不确定环境下的控制问题。强化学习智能体能够从过去的失败中学习经验,对复杂的环境具有很强的适应性。由于深度神经网络缺乏可解释性的缘故,强化学习的方法很难保证决策的合理性以及控制过程中的安全性。因此,本发明将基于规则的约束引入到强化学习的框架,研究一种结合路径规划和强化学习的导航避障控制方法,具有重要的现实意义。
发明内容
本发明针对现有技术存在的问题,提出一种结合路径规划和强化学习的导航避障控制方法,将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪,实现基于规则的路径规划算法与深度强化学习的结合,在提高车辆通行效率的同时保证了端到端强化学习的安全性。
为实现上述目的,本发明采用如下技术方案:
本发明提出的结合路径规划和强化学习的导航避障控制方法,包括如下步骤:
步骤1:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径。
步骤2:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径。具体步骤为:
1)采样自动驾驶汽车当前时刻的速度
Figure BDA0003519276260000021
2)简化车辆运动,忽略车辆的垂直运动,假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制。根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ,通过自行车模型(Bicycle Model),构建车辆的运动学模型:
Figure BDA0003519276260000022
其中,v和δ分别代表车辆的纵向速度以及转向轮的角速度,L为车轮距离(前后轮胎之间的距离)。
3)根据车辆本身的运动学和环境约束将速度
Figure BDA0003519276260000023
限制在一定的范围内。这些约束条件包括车辆自身最大速度和最小速度的限制,车辆发动机或电机等性能的限制,车辆安全制动距离的限制。
4)利用得到的车辆运动学模型,根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟轨迹,为简化计算,假设这段时间内的速度保持不变直到下一时刻采样更新。
步骤3:对采样得到的若干组轨迹,采用评价函数的方式对每一条轨迹进行评分。评价准则包括:与目标位置的夹角;轨迹上是否存在障碍物以及距离障碍物的距离;距离全局参考路径的最近距离等。
步骤4:利用强化学习算法(Twin Delayed Deep Deterministic policygradient,TD3)跟踪得到的最优轨迹。
将自动驾驶最优轨迹跟踪任务描述成马尔可夫决策过程(Markov DecisionProcess,MDP)<S,A,T,R,γ>,其中S表示状态空间,A表示动作空间,T是状态转移模型,R表示奖励模型,γ是折扣因子。
1)状态选择:轨迹规划器生成轨迹的实质就是一系列的导航点,以0.2s的间隔选取导航点存入对应的列表。状态量包括四部分:导航点位置与车辆位置x方向上特征向量,导航点位置与车辆位置y方向上特征向量,车辆的航向角以及车辆的速度。
2)动作选择:选择车辆的纵向和横向控制作为深度强化学习的输出,输出的动作的维度action_dim为2,将输出的第一维度拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,第二维度代表车辆的方向盘转角,范围是[-1,1]。
3)奖励函数设计:奖励函数包括两个部分,导航点偏离程度的奖励和到达导航点的阶段性奖励。
步骤5:对强化学习网络DRL模型进行训练。
1)训练过程:首先通过模拟器构建一系列自动驾驶常见实验场景,随机生成自车智能体以及其他交通参与者,形成混行交通流。接着智能体随机采取动作,获得相应时刻的状态,信息存入经验池中。之后,DRL模型进行在线训练,训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点,当车辆接近导航点时获得阶段性奖励reward=1,同时下一个导航点作为新的导航点。如果车辆发生碰撞或者超过最大的仿真时间20s,则停止此次训练,并将车辆重置至起点开始下一次训练,直到reward_list中的导航点都被遍历后,则训练完成。
2)测试过程:设计一个新的交通场景作为测试场景,对训练完成的DRL模型进行测试,以验证其泛化性能。
本发明还提出了一种结合路径规划和强化学习的导航避障控制系统,包括:
初步规划可通行路径模块:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
轨迹采样空间生成模块:利用改进的动态窗口规划算法(dynamic windowapproach,DWA),生成多条可供选择的路径轨迹采样空间;
轨迹采样空间评价模块:采用评价函数对每一条路径轨迹进行评价,得到最优轨迹以及对应的最优速度;
动态路径跟踪模块:包括导航点生成模块和强化学习网络模块;其中,导航点生成模块生成的导航点作为强化学习网络模块中车辆导航过程中的跟踪目标,通过强化学习算法实现导航避障跟踪。
进一步,所述轨迹采样空间生成模块具体设计如下:
假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角,根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
Figure BDA0003519276260000041
Figure BDA0003519276260000042
其中(x,y)是后轮的全局坐标,(xf,yf)是前轮的全局坐标,θ是车辆在yaw方向的偏转角度,δ是车辆的转向角度;
Figure BDA0003519276260000043
可以由纵向速度v来表示:
Figure BDA0003519276260000044
Figure BDA0003519276260000045
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
Figure BDA0003519276260000046
根据车辆的纵向速度v以及转向轮的角速度
Figure BDA0003519276260000047
可以得到车辆的位置情况,因此采集多组速度
Figure BDA0003519276260000048
即利用车辆运动学模型可由推算出车辆的运动轨迹,对于无穷多组的速度,其本身也受车辆运动学和环境条件限制,包括:
1)车辆自身最大车速vmax和最小车速vmin的限制V1
Figure BDA0003519276260000049
2)车辆受电机性能的影响V2
Figure BDA00035192762600000410
其中
Figure BDA00035192762600000411
分别表示最大减速度与最大加速度,
Figure BDA00035192762600000412
分别表示角速度的最大减速度和最大加速度;
3)考虑车辆能在撞上障碍物之前停下速度的约束V3
Figure BDA0003519276260000051
其中
Figure BDA0003519276260000052
为车辆轨迹上与障碍物的最近距离,刹车时的减速度分别为
Figure BDA0003519276260000053
Figure BDA0003519276260000054
最后得到速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到若干组轨迹。
进一步,所述轨迹采样空间评价模块包括四个方面的评价:
1)变量to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大;
2)变量velocity_cost用于评价通行效率,表示车辆移动的速度;
3)变量obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离;
4)变量lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优;
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
进一步,所述导航点生成模块:对Carla环境进行建图,获取地图中包括自车和障碍物在内的信息,根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,获得下一时刻车辆的位置信息,将下一时刻的位置信息存入对应的导航点列表中。
进一步,所述强化学习网络模块:采用双延迟深度确定性策略梯度算法TD3,TD3算法采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络的奖励函数:
Figure BDA0003519276260000061
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,waypoint_reached和collision分别表示导航点抵达和碰撞。当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
本发明还设计了一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型,该模型采用双延迟深度确定性策略梯度算法TD3,采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络模型的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络模型的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络模型的奖励函数:
Figure BDA0003519276260000062
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
本发明的有益效果为:
(1)本发明针对自动驾驶任务,采用路径规划与强化学习相结合的方法,可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。
(2)本发明与现有的PID+LQR控制策略相比,不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比,不过分依赖被控对象的模型精度,同时求解过程的复杂性大大降低,提高了车载的实时计算效率。
(3)本发明与端到端的强化学习相比,结合了车辆的运动学模型,具有可解释性,同时也大大提高了车辆导航过程中的安全性。
附图说明
图1本发明的方法流程图;
图2本发明的智能体训练过程图;
图3本发明所使用的Actor网络神经网络结构;
图4本发明所使用的Critic网络神经网络结构。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明,但本发明的内容不局限于此。
本发明提供了一种结合路径规划和强化学习的导航避障控制方法,可实现复杂场景(例如无信号灯路口)下车辆的安全高效导航,如图1所示,具体包括以下步骤:
规划最优路径:
(1)初始化导航任务中的起点和终点,利用全局路径规划算法(A*)规划出自动驾驶车辆的大致可通行轨迹,避免应用DWA算法时陷入局部最优。
(2)生成自动驾驶车辆对应的轨迹采样空间。为使后续的跟踪控制具备更好的性能,轨迹规划过程中应尽可能的考虑车辆的运动学和动力学约束,进而更贴近实际。本发明假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角。根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
Figure BDA0003519276260000081
Figure BDA0003519276260000082
其中(x,y)是后轮的全局坐标,(xf,yf)是前轮的全局坐标,θ是车辆在yaw方向的偏转角度,δ是车辆的转向角度。
Figure BDA0003519276260000083
可以由纵向速度v来表示:
Figure BDA0003519276260000084
Figure BDA0003519276260000085
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
Figure BDA0003519276260000086
根据车辆的纵向速度v以及转向轮的角速度
Figure BDA0003519276260000087
可以得到车辆的位置情况。因此采集很多组的速度
Figure BDA0003519276260000088
即利用车辆运动学模型可由推算出车辆的运动轨迹。然而对于无穷多组的速度,其本身也受车辆运动学和环境条件限制。其中包括:
1)车辆自身最大车速vmax和最小车速vmin的限制:
Figure BDA0003519276260000089
2)车辆受电机性能的影响:
Figure BDA00035192762600000810
其中
Figure BDA00035192762600000811
分别表示最大减速度与最大加速度,
Figure BDA00035192762600000812
分别表示角速度的最大减速度和最大加速度。
3)考虑车辆能在撞上障碍物之前停下的速度:
Figure BDA0003519276260000091
其中
Figure BDA0003519276260000092
为车辆轨迹上与障碍物的最近距离,刹车时的减速度分别为
Figure BDA0003519276260000093
Figure BDA0003519276260000094
最后得到最终的速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到九组轨迹。
(3)对九条轨迹采用构建评价函数的方式进行评价,得到最优轨迹以及对应的最优速度。针对自动驾驶导航问题,本发明重新设计了动态窗口法(Dynamic WindowApproach,DWA)的评价函数,主要包括四个方面:
1)to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大。
2)velocity_cost用于评价通行效率,表示车辆移动的速度。
3)obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离。
4)lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优。
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
动态路径跟踪:
(4)生成仿真中的导航点。选用CARLA(Car Learning To Act)模拟器作为本发明的仿真实验平台,实验场景是无信号的路口,要解决的是此路口下的左转问题。对Carla环境进行建图,获取地图中包括自车和障碍物在内的一些信息。本发明中将强化学习作为一种跟踪控制算法,直观的将导航点(waypoint)作为车辆导航过程中的跟踪目标。首先,由(3)得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,从而获得下一时刻车辆的位置更新。轨迹规划的更新间隔dt设置为0.2s,而车辆位置的更新,取十次轨迹的新结果。由于实验的仿真场景是无信号灯的十字交叉路口,Carla地图中得不到自定义的导航点,因此直接将下一时刻的位置信息存入对应的导航点列表中。
(5)确定强化学习网络的输入和输出。强化学习算法使用的是双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient,TD3),TD3算法是DDPG的一个优化版本,同样使用的是Actor-Critic网络架构。区别在于DDPG涉及4个网络,而TD3需要用到6个网络,用类似Double DQN的方式,解决了DDPG中Critic对动作Q值过估计的问题。如图3所示,Actor网络所使用神经网络模型结构由2个全连接层组成,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间。如图4所示,Critic网络所使用神经网络模型结构由2个全连接层组成,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估。
本发明将状态量[Δx,Δy,yaw,kmh]作为网络的输入,其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度。使用速度信息作为网络输入有利于更好的进行车辆下一时刻的位置和速度更新。接着对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1]。目的是为了消除指标之间量纲的影响,有效防止梯度爆炸,加速收敛。
网络的输出部分,结合Carla模拟器中车辆的控制方法,本发明使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声。输出的动作维度action_dim为2,将输出的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车(刹车=0),[0,1]代表最小油门(动作值=0)到最大油门。做出这种设计的原因在于假设油门和刹车这两个动作不能够同时采取。动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。使用上述的这些设计,可以实现车辆动作的连续控制。
(6)设计网络的奖励函数。针对自动驾驶车辆的导航避障任务,设计了如下的奖励函数:
Figure BDA0003519276260000101
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度。当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1。此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点。如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。使用这样的奖励设置,可以充分发挥目标导向的作用,更有效地学习策略。
(7)在Carla模拟器中,结合随机噪声,使强化学习智能体在与仿真环境的交互中产生经验,并存入提前设置好的经验池中,对网络进行训练,训练结果如图2所示。
(8)对训练好的网络进行测试:
测试参数:最大回合数100,最大时间步长500。选取新的无信号路口,作为测试场景,同样是在12辆车中随机生成周边车辆,对训练结果进行测试。
综上所述,本发明的一种结合路径规划和强化学习的高效导航避障方法,通过提取环境信息,生成对应的鸟瞰语义图,并结合全局规划算法,规划出大致可通行的区域。为了实现对障碍物的有效避让,采用动态窗口(DWA)的办法进行速度采样,考虑全局规划的参考路线,生成一条最优的轨迹。将最优轨迹以导航点的形式输出,使用TD3的强化学习算法训练神经网络,实现最优轨迹的跟踪。本发明将基于规则的路径规划算法与深度强化学习相结合,实现了不确定性场景下的高效导航避障,具有很好的学习驾驶能力。相比与端到端的强化学习方式,具有可解释性和更快的学习速度,提高了驾驶的安全性。与常规的基于规则的方式相比,本发明可以应用于难以精确解析环境和建模的各种场景。即使是在感知失败的情况下也可以通过学习的方式,生成可靠的驾驶策略。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种结合路径规划和强化学习的导航避障控制方法,其特征在于,包括如下步骤:
步骤1:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
步骤2:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径轨迹采样空间;
步骤3:对采样得到的若干组轨迹,采用评价函数的方式对每一条轨迹进行评价,评价准则包括:与目标位置的夹角;轨迹上是否存在障碍物以及距离障碍物的距离;距离全局参考路径的最近距离;
步骤4:利用强化学习网络模型跟踪得到导航避障的最优轨迹。
2.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,所述步骤2的过程如下:
步骤2.1,采样自动驾驶汽车当前时刻的速度
Figure FDA0003519276250000013
步骤2.2,简化车辆运动,忽略车辆的垂直运动,假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制,根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ,通过假设的自行车模型,构建如下的车辆运动学模型;
Figure FDA0003519276250000011
其中,v和δ分别代表车辆的纵向速度以及转向轮的角速度,L为车辆的轴距;
步骤2.3,根据车辆本身的运动学和环境约束将速度
Figure FDA0003519276250000012
限制在一定的范围内,这些约束条件包括车辆自身最大速度和最小速度的限制,车辆发动机或电机性能的限制,车辆安全制动距离的限制;
步骤2.4,利用得到的车辆运动学模型,根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟路径轨迹。
3.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,所述步骤4的具体实现方法:将自动驾驶最优轨迹跟踪任务转化成马尔可夫决策过程[S,A,P,γ,R],包括状态st选择,动作at选择和奖励函数Rt的设计;
状态选择:轨迹规划器生成轨迹的实质就是一系列的导航点,以0.2s的间隔选取导航点存入对应的列表,状态量包括四部分:导航点位置与车辆位置x方向上特征向量,导航点位置与车辆位置y方向上特征向量,车辆的航向角以及车辆的速度;
动作选择:选择车辆的纵向和横向控制作为深度强化学习的输出,输出的动作的维度action_dim为2,将输出的第一维度拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,第二维度代表车辆的方向盘转角,范围是[-1,1];
设计奖励函数:奖励函数包括两个部分,导航点偏离程度的奖励和到达导航点的阶段性奖励。
4.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,还包括步骤5:对强化学习网络模型进行训练,训练之后的模型可实现自动导航避障;训练方法如下:
首先通过模拟器构建一系列自动驾驶常见实验场景,随机生成自车智能体以及其他交通参与者,形成混行交通流;接着智能体随机采取动作,获得相应时刻的状态,信息存入经验池中;之后,强化学习网络DRL模型进行在线训练,训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点,当车辆接近导航点时获得阶段性奖励reward=1,同时下一个导航点作为新的导航点,如果车辆发生碰撞或者超过最大的仿真时间20s,则停止此次训练,并将车辆重置至起点开始下一次训练,直到导航点存储列表中的导航点都被遍历后,则训练完成。
5.一种结合路径规划和强化学习的导航避障控制系统,其特征在于,包括:
初步规划可通行路径模块:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
轨迹采样空间生成模块:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径轨迹采样空间;
轨迹采样空间评价模块:采用评价函数对每一条路径轨迹进行评价,得到最优轨迹以及对应的最优速度;
动态路径跟踪模块:包括导航点生成模块和强化学习网络模块;其中,导航点生成模块生成的导航点作为强化学习网络模块中车辆导航过程中的跟踪目标,通过强化学习算法实现导航避障跟踪。
6.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述轨迹采样空间生成模块具体设计如下:
假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角,根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
Figure FDA0003519276250000031
Figure FDA0003519276250000032
其中(x,y)是后轮的全局坐标,(xf,yf)是前轮的全局坐标,θ是车辆在yaw方向的偏转角度,δ是车辆的转向角度;
Figure FDA0003519276250000033
可以由纵向速度v来表示:
Figure FDA0003519276250000034
Figure FDA0003519276250000035
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
Figure FDA0003519276250000036
根据车辆的纵向速度v以及转向轮的角速度
Figure FDA0003519276250000041
可以得到车辆的位置情况,因此采集多组速度
Figure FDA0003519276250000042
即利用车辆运动学模型可由推算出车辆的运动轨迹,对于无穷多组的速度,其本身也受车辆运动学和环境条件限制,包括:
1)车辆自身最大车速vmax和最小车速vmin的限制:
Figure FDA0003519276250000043
2)车辆受电机性能的影响:
Figure FDA0003519276250000044
其中
Figure FDA0003519276250000045
分别表示最大减速度与最大加速度,
Figure FDA0003519276250000046
分别表示角速度的最大减速度和最大加速度;
3)考虑车辆能在撞上障碍物之前停下的速度:
Figure FDA0003519276250000047
其中dist(v,w)为车辆轨迹上与障碍物的最近距离,刹车时的减速度分别为
Figure FDA0003519276250000048
Figure FDA0003519276250000049
最后得到速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到若干组轨迹。
7.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述轨迹采样空间评价模块包括四个方面的评价:
1)to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大;
2)velocity_cost用于评价通行效率,表示车辆移动的速度;
3)obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离;
4)lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优;
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
8.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述导航点生成模块:对Carla环境进行建图,获取地图中包括自车和障碍物在内的信息,根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,获得下一时刻车辆的位置信息,将下一时刻的位置信息存入对应的导航点列表中。
9.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述强化学习网络模块:采用双延迟深度确定性策略梯度算法TD3,TD3算法采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络的奖励函数:
Figure FDA0003519276250000051
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
10.一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型,其特征在于,采用双延迟深度确定性策略梯度算法TD3,采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络模型的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络模型的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络模型的奖励函数:
Figure FDA0003519276250000061
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
CN202210176732.0A 2022-02-24 2022-02-24 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 Pending CN114564016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210176732.0A CN114564016A (zh) 2022-02-24 2022-02-24 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210176732.0A CN114564016A (zh) 2022-02-24 2022-02-24 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Publications (1)

Publication Number Publication Date
CN114564016A true CN114564016A (zh) 2022-05-31

Family

ID=81715048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210176732.0A Pending CN114564016A (zh) 2022-02-24 2022-02-24 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Country Status (1)

Country Link
CN (1) CN114564016A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115390452A (zh) * 2022-09-01 2022-11-25 湖南大学无锡智能控制研究院 一种lqr横向控制器参数在线自适应方法及系统
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115657683A (zh) * 2022-11-14 2023-01-31 中国电子科技集团公司第十研究所 一种可用于巡检作业任务的无人无缆潜水器实时避障方法
CN115755919A (zh) * 2022-11-29 2023-03-07 淮阴工学院 一种化工巡检车轨迹跟踪方法及系统
CN116820016A (zh) * 2023-08-31 2023-09-29 国汽(北京)智能网联汽车研究院有限公司 一种物流车的自动驾驶控制方法、装置、设备及存储介质
CN118192617A (zh) * 2024-05-17 2024-06-14 盐城工学院 一种无人驾驶车辆避障规划控制方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
CN115390452A (zh) * 2022-09-01 2022-11-25 湖南大学无锡智能控制研究院 一种lqr横向控制器参数在线自适应方法及系统
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115657683A (zh) * 2022-11-14 2023-01-31 中国电子科技集团公司第十研究所 一种可用于巡检作业任务的无人无缆潜水器实时避障方法
CN115657683B (zh) * 2022-11-14 2023-05-02 中国电子科技集团公司第十研究所 一种可用于巡检作业任务的无人无缆潜水器实时避障方法
CN115755919A (zh) * 2022-11-29 2023-03-07 淮阴工学院 一种化工巡检车轨迹跟踪方法及系统
CN116820016A (zh) * 2023-08-31 2023-09-29 国汽(北京)智能网联汽车研究院有限公司 一种物流车的自动驾驶控制方法、装置、设备及存储介质
CN116820016B (zh) * 2023-08-31 2023-11-21 国汽(北京)智能网联汽车研究院有限公司 一种物流车的自动驾驶控制方法、装置、设备及存储介质
CN118192617A (zh) * 2024-05-17 2024-06-14 盐城工学院 一种无人驾驶车辆避障规划控制方法及系统

Similar Documents

Publication Publication Date Title
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
Zhang et al. Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN112622886A (zh) 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112046484A (zh) 一种基于q学习的车辆变道超车路径规划方法
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
Raji et al. Motion planning and control for multi vehicle autonomous racing at high speeds
CN114228690B (zh) 一种基于ddpg和迭代控制的自动驾驶车辆侧倾控制方法
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
Al-Sharman et al. Self-learned autonomous driving at unsignalized intersections: A hierarchical reinforced learning approach for feasible decision-making
CN116629114A (zh) 多智能体的模型训练方法、系统、计算机设备和存储介质
CN116127853A (zh) 融合时序信息的基于ddpg的无人驾驶超车决策方法
CN114435396B (zh) 一种智能车辆交叉口行为决策方法
Li et al. Decision making for autonomous vehicles
CN111413974B (zh) 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN111857112A (zh) 一种汽车局部路径规划方法及电子设备
AR et al. Reinforcement Learning Based Parking Space Egress for Autonomous Driving
Zhang et al. Trajectory planning based on spatio-temporal reachable set considering dynamic probabilistic risk
Tan et al. Driver steering model based on a target & control scheme
Reddy Autonomous car: Deployment of reinforcement learning in various autonomous driving applications
Liang et al. Investigations on Speed Planning Algorithm and Trajectory Tracking Control of Intersection Scenarios Without Traffic Signs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination