CN110989577B - 自动驾驶决策方法及车辆的自动驾驶装置 - Google Patents

自动驾驶决策方法及车辆的自动驾驶装置 Download PDF

Info

Publication number
CN110989577B
CN110989577B CN201911118758.4A CN201911118758A CN110989577B CN 110989577 B CN110989577 B CN 110989577B CN 201911118758 A CN201911118758 A CN 201911118758A CN 110989577 B CN110989577 B CN 110989577B
Authority
CN
China
Prior art keywords
target vehicle
strategy
action
cost function
current state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911118758.4A
Other languages
English (en)
Other versions
CN110989577A (zh
Inventor
李慧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911118758.4A priority Critical patent/CN110989577B/zh
Publication of CN110989577A publication Critical patent/CN110989577A/zh
Application granted granted Critical
Publication of CN110989577B publication Critical patent/CN110989577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了自动驾驶决策方法及车辆的自动驾驶装置,相比一般的前馈控制决策,本发明基于深度强化学习方法能使驾驶系统在充分的数据条件下进行训练,训练后能在更高速及复杂的路面环境下快速准确地进行决策。而不同于现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题,其直接以目标车辆的前馈误差量作为目标车辆的状态,设定在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数以进行深度强化学习,解耦了轨迹规划与动作规划,以轨迹规划完成为前提,集中解决轨迹规划后的跟踪问题,获得最优策略并构建策略网络模型,能实现模型的收敛和自适应。

Description

自动驾驶决策方法及车辆的自动驾驶装置
技术领域
本发明涉及自动驾驶技术领域,尤其是涉及自动驾驶决策方法及车辆的自动驾驶装置。
背景技术
自动驾驶是未来车辆发展的必然趋势,是避免人为驾驶失误和提高交通效率的有效途径。为了实现无人车在真实道路上的安全行驶,不但需要车体感知端对物体进行精确的识别与追踪,而且需要决策控制端能够根据当前的道路状况做出合理的动作,包括行为预测,避障,轨迹规划、动作规划和执行机构等内容。
由于驾驶场景相对复杂,驾驶行为通常又是复杂多变的,交通道路突发情况亦时有发生,难以进行准确而完整的建模。传统的前馈/反馈控制决策,对动力学模型简化过度,只能用于低速平整路面。参照图1所示的基于深度强化学习的自动驾驶决策方法的原理框图,深度强化学习能够在充分数据条件下进行训练,训练完毕然后在实际高度复杂、易变的环境下快速准确地进行决策。然而,现有强化学习方法将生成和执行/跟踪任务集成到一个优化问题中,这种方法通常用于最优时间应用,例如常规应用强化学习的棋类运动和电脑游戏,但是当这样的强化学习方法应用在自动驾驶中时,由于硬件处理能力有限,实时运行轨迹生成和跟踪任务的集中优化问题相当困难,在驾驶时面对的复杂环境下进行这样的规划并不有利,甚至可能导致错误决策的产生。
而且,参照图2所示的强化学习基本原理框架图,对于自动驾驶的现有强化学习方法,车辆当前的状态量为
St=f(St,at)=f(f(St-1,at-1),at)=F(S0,a1,a2,......,at),
当前的状态是由初始状态和所有以前的动作所决定的,初始状态S0已知,通过使所有以前动作产生的累计回报值最大,来确定最佳的决策,从而构建出图1中的策略模型。但是,现有技术针对例如航向角度、纵向速度等车辆当前状态执行强化学习,没有预瞄点,无模型,经常会导致系统不收敛或不能自适应,获得的策略并不准确。
发明内容
有鉴于此,本发明的目的在于提供自动驾驶决策方法及车辆的自动驾驶装置,来解决上述问题。
为了实现上述的目的,本发明采用了如下的技术方案:
本发明提供了一种自动驾驶决策方法,所述自动驾驶决策方法包括步骤:以目标车辆的前馈误差量作为目标车辆的状态;设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数;根据动作价值函数为从当前时刻起所累积的立即回报的折算和,并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值,确认所述期望最大化的动作价值函数值对应的所述最优策略;采用所述最优策略构建策略网络模型,并基于所述策略网络模型进行自动驾驶决策。
优选地,所述前馈误差量包括目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。
优选地,设定目标车辆在当前状态执行最优策略获得的立即回报为:r=-et;其中,et为目标车辆在当前时刻t的前馈误差量。
优选地,目标车辆在当前状态执行最优策略后所累积的立即回报折算和为:
Figure BDA0002274829410000021
其中,T为终止时刻,γ为回报折扣因子,γ∈[0,1]。
优选地,所述动作价值函数为:
Figure BDA0002274829410000022
其中,k为迭代次数,St为目标车辆的当前状态,at为目标车辆在当前状态执行策略所映射的动作。
优选地,通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数,所述损失函数为:
Figure BDA0002274829410000023
其中,目标车辆在下一时刻能达到最大化的目标动作价值函数值/>
Figure BDA0002274829410000024
Figure BDA0002274829410000025
目标车辆执行策略πθ(St,at)后的预估价值函数值Qeval=Q(St,at)|πθ(St,at)。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有自动驾驶决策程序,所述自动驾驶决策程序用于被处理器执行以实现如上所述的自动驾驶决策方法。
本发明还提供了一种车辆的自动驾驶装置,所述自动驾驶装置包括处理器和存储器,所述存储器存储有可在所述处理器上运行的自动驾驶决策程序,所述自动驾驶决策程序用于被所述处理器执行以实现如上所述的自动驾驶决策方法
本发明提供的自动驾驶决策方法及车辆的自动驾驶装置,通过以前馈误差量作为目标车辆的状态,同时设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数,解决了现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题,能够将稀疏反馈增密,获得能应用于复杂环境的自动驾驶决策的策略网络模型。
附图说明
图1是基于深度强化学习方法的自动驾驶决策方法的原理框图;
图2是强化学习基本原理框架图;
图3是本发明提供的自动驾驶决策方法的流程图;
图4是目标车辆模拟在规划路径上行驶的前后轮示例性图示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的,并且本发明并不限于这些实施方式。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了关系不大的其他细节。
本发明提供了一种自动驾驶决策方法,参照图3所示,所述自动驾驶决策方法包括:
S1、以目标车辆的前馈误差量作为目标车辆的状态;
S2、设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数;
S3、根据动作价值函数为从当前时刻起所累积的立即回报的折算和,并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值,确认所述期望最大化的动作价值函数值对应的所述最优策略;
S4、采用所述最优策略构建策略网络模型,并基于所述策略网络模型进行自动驾驶决策。
本发明基于深度强化学习方法能使驾驶系统能够在充分数据条件下进行训练,训练完毕然后在实际高度复杂、易变的环境下快速准确地进行决策的优点,提供上述自动驾驶决策方法来解决现有的自动驾驶决策方案的问题。首先,上述步骤S1和S2中,本发明直接以目标车辆在前馈误差量作为目标车辆的状态,设定目标车辆在当前状态执行最优策略获得的立即回报为当前的前馈误差量的相反数,由此,目标车辆在当前状态执行最优策略后所累积的立即回报的折算和为累积的所述前馈误差量的折算和的相反数,执行的最优策略能使车辆以误差最小的方式沿规划轨迹行走,即通过解耦轨迹规划与动作规划,以轨迹规划完成为前提,集中解决轨迹规划后的跟踪问题,避免了将生成和执行/跟踪任务集成到一起优化而由于目标车辆的状态和行为维数高造成运行困难。
因为基于前馈控制可以对目标的实际状况与原先设计的动作要求之间的偏差进行比较,再进行针对调整,在以后再指令作同样的动作时,控制就更加准确,使动作能更接近设计的要求。不同于现有强化学习方法以车辆当前状态执行强化学习导致系统不收敛或不能自适应以及获得的策略并不准确,本发明利用前馈量满足收敛要求的特性,能够将稀疏反馈增密,实现了所获得模型的收敛和自适应,即为能极好地实现轨迹规划后的跟踪。
每次在某种状态量St下,执行某一动作at,基于深度强化学习方法的智能体(Agent)会立即收到一个回报r(St,at),它表示此“状态-动作”转换的立即值,如此持续执行产生一连串累积的“状态-动作-立即回报”值Rt,智能体通过学习到一个最优的自动驾驶决策π:St→at,使得累积回报值r0+γr12r2+…(其中,回报折扣因子γ为0≤γ<1)的期望最大化。根据上述思路,结合图1所示,所述步骤S3根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值,由于动作价值函数为从当前时刻起所累积的立即回报的折算和,即最大化的动作价值函数值对应的为采取最优策略后所累积获得的立即回报的折算和,因此能确定所述最优策略。在步骤S4中根据所获得的最优策略,以状态St和动作at作为输入层,动作价值函数Q(St,at)作为输出层,便能构建策略网络模型,进而可以应用所述策略网络模型得到目标车辆在不同状态下采用最优策略映射的最优选动作,达到自动驾驶决策控制的目的,示例性地,自动驾驶的动作可包括但不限于下表1中的内容。
表1自动驾驶的动作(action)列表
Figure BDA0002274829410000051
示例性地,所述步骤S1中,前馈误差量e包括但不限于目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。例如,本发明实施例采用前馈误差量e中的前轮中心横向位置跟踪偏差作为目标车辆的状态,参照图4所示,曲线代表路径的中线,目标车辆前轮中心距离路径中线的横向位置跟踪偏差的数值为|e|,目标车辆的前轮中心横向位置跟踪偏差的变化率为:
Figure BDA0002274829410000052
其中,vf为目标车辆的前轮行进速度,δ为前轮转角,ψe为横摆角偏差。可以看出,前轮横向位置偏差的变化率
Figure BDA0002274829410000053
可以直接通过前轮转角δ进行控制,在变曲率路径且路径连续可导的的条件下,可以满足局部指数收敛特性。
具体地,所述步骤S2中,设定目标车辆在当前状态执行最优策略获得的立即回报为:r=-et
其中,et为目标车辆在当前时刻t的前馈误差量。
由此,目标车辆在当前状态执行最优策略后所累积的立即回报折算和为:
Figure BDA0002274829410000054
其中,T为终止时刻,γ为回报折扣因子,γ∈[0,1]。
通过设定以在当前状态执行最优策略获得的立即回报r为r=-et,则期望或者要求目标车辆在当前状态执行最优策略后所累积的立即回报折算和应当为
Figure BDA0002274829410000061
使得在学习过程中,能够尽可能地减小前馈误差,比如前轮中心横向位置跟踪偏差越小,目标车辆越能更准确地跟踪路径的中线行驶。以下说明如何求出能够使得累积的立即回报折算和为/>
Figure BDA0002274829410000062
的最优策略:
具体地,所述步骤S3中,所述动作价值函数为:
Figure BDA0002274829410000063
其中,k为迭代次数,St为目标车辆的当前状态,at为目标车辆在当前状态执行策略所映射的动作。
只要获得期望最大化的动作价值函数值,即可确定其所对应的最优策略,进一步地,通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数,所述损失函数为:
Figure BDA0002274829410000064
其中,目标车辆在下一时刻能达到最大化的目标动作价值函数值
Figure BDA0002274829410000065
目标车辆执行策略πθ(St,at)后的预估价值函数值Qeval=Q(St,at)|πθ(St,at)。损失函数L(θ)用于评估做出决策的风险,通过确保决策的损失函数L(θ)最小化,使构建策略网络模型的动作值函数Q(St,at)逼近期望最大化的动作价值函数,即可获得所述期望最大化的动作价值函数对应的最优策略。所述步骤S4便可利用获得的最优策略构建策略网络模型,并基于所述策略网络模型进行自动驾驶决策。
本发明还提供了一种计算机存储介质,所述计算机存储介质上存储有自动驾驶决策程序,所述自动驾驶决策程序用于被处理器执行以实现如上所述的自动驾驶决策方法。
本发明还提供了一种车辆的自动驾驶装置,所述自动驾驶装置包括处理器和存储器,所述存储器存储有可在所述处理器上运行的自动驾驶决策程序,所述自动驾驶决策程序用于被所述处理器执行以实现如上所述的自动驾驶决策方法。
综上所述,本发明提供的自动驾驶决策方法及车辆的自动驾驶装置,通过以前馈误差量作为目标车辆的状态,同时设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数,由此进行深度强化学习来获得最优策略并基于所述最优策略构建的策略网络模型进行自动驾驶决策,避免了现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种自动驾驶决策方法,其特征在于,包括:
以目标车辆的前馈误差量作为目标车辆的状态;
设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数;
根据动作价值函数为从当前时刻起所累积的立即回报的折算和,并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值,确认所述期望最大化的动作价值函数值对应的所述最优策略;
采用所述最优策略构建策略网络模型,并基于所述策略网络模型进行自动驾驶决策;
其中,所述动作价值函数为:
Figure FDA0004196357040000011
其中,k为迭代次数,St为目标车辆的当前状态,at为目标车辆在当前状态执行策略所映射的动作,γ为回报折扣因子;
其中,通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数,所述损失函数为:
Figure FDA0004196357040000012
其中,目标车辆在下一时刻能达到最大化的目标动作价值函数值
Figure FDA0004196357040000013
Figure FDA0004196357040000014
目标车辆执行策略πθ(St,at)后的预估价值函数值Qeval=Q(St,at)|πθ(St,at)。
2.根据权利要求1所述的自动驾驶决策方法,其特征在于,所述前馈误差量包括目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。
3.根据权利要求1所述的自动驾驶决策方法,其特征在于,设定目标车辆在当前状态执行最优策略获得的立即回报为:
r=-et
其中,et为目标车辆在当前时刻t的前馈误差量。
4.根据权利要求3所述的自动驾驶决策方法,其特征在于,目标车辆在当前状态执行最优策略后所累积的立即回报折算和为:
Figure FDA0004196357040000021
其中,T为终止时刻,γ为回报折扣因子,γ∈[0,1]。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有自动驾驶决策程序,所述自动驾驶决策程序用于被处理器执行以实现如权利要求1至4任一项所述的自动驾驶决策方法。
6.一种车辆的自动驾驶装置,其特征在于,包括处理器和存储器,所述存储器存储有可在所述处理器上运行的自动驾驶决策程序,所述自动驾驶决策程序用于被所述处理器执行以实现如权利要求1至4任一项所述的自动驾驶决策方法。
CN201911118758.4A 2019-11-15 2019-11-15 自动驾驶决策方法及车辆的自动驾驶装置 Active CN110989577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911118758.4A CN110989577B (zh) 2019-11-15 2019-11-15 自动驾驶决策方法及车辆的自动驾驶装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911118758.4A CN110989577B (zh) 2019-11-15 2019-11-15 自动驾驶决策方法及车辆的自动驾驶装置

Publications (2)

Publication Number Publication Date
CN110989577A CN110989577A (zh) 2020-04-10
CN110989577B true CN110989577B (zh) 2023-06-23

Family

ID=70084686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911118758.4A Active CN110989577B (zh) 2019-11-15 2019-11-15 自动驾驶决策方法及车辆的自动驾驶装置

Country Status (1)

Country Link
CN (1) CN110989577B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111679660B (zh) * 2020-06-16 2022-08-05 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112099496B (zh) * 2020-09-08 2023-03-21 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN111930015B (zh) * 2020-09-16 2021-06-04 北京三快在线科技有限公司 一种无人车控制方法及装置
CN112550314B (zh) * 2020-12-16 2022-04-19 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN112859849A (zh) * 2021-01-06 2021-05-28 北京三快在线科技有限公司 自动行驶设备的路口运动规划方法、装置、电子设备
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113140104B (zh) * 2021-04-14 2022-06-21 武汉理工大学 一种车辆列队跟踪控制方法、装置及计算机可读存储介质
CN113635909B (zh) * 2021-08-19 2022-07-12 崔建勋 一种基于对抗生成模仿学习的自动驾驶控制方法
CN113619604B (zh) * 2021-08-26 2023-08-15 清华大学 自动驾驶汽车的集成式决控方法、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN108537379B (zh) * 2018-04-04 2021-11-16 北京科东电力控制系统有限责任公司 自适应变权重组合负荷预测方法及装置
CN109669461B (zh) * 2019-01-08 2020-07-28 南京航空航天大学 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法
CN109991987B (zh) * 2019-04-29 2023-08-04 北京智行者科技股份有限公司 自动驾驶决策方法及装置
CN110221611B (zh) * 2019-06-11 2020-09-04 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆
CN110299008B (zh) * 2019-07-19 2020-11-13 浙江工业大学 一种基于强化学习的交通流多步预测方法

Also Published As

Publication number Publication date
CN110989577A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110989577B (zh) 自动驾驶决策方法及车辆的自动驾驶装置
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN107479547B (zh) 基于示教学习的决策树行为决策算法
CN108303982A (zh) 自动引导运输车、其控制方法及控制系统
CN109726676B (zh) 自动驾驶系统的规划方法
CN111538328B (zh) 一种用于自主驾驶车辆避障轨迹规划与跟踪控制的优先级分层预测控制方法
CN116476825B (zh) 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN111752274A (zh) 一种基于强化学习的激光agv的路径跟踪控制方法
CN116560223A (zh) 一种基于物理信息神经网络的智能车辆动力学模型、ilqr控制算法及轨迹跟踪控制器
Sun et al. Fixed-time generalized super-twisting control for path tracking of autonomous agricultural vehicles considering wheel slipping
Fröhlich et al. Model learning and contextual controller tuning for autonomous racing
Mi et al. Integration of Motion Planning and Control for High-Performance Automated Vehicles Using Tube-based Nonlinear MPC
CN115525054B (zh) 大型工业园区无人清扫车沿边路径跟踪控制方法及系统
CN114355976B (zh) 一种基于学习的控制无人机在风扰下完成轨迹跟踪的方法
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
Chen et al. Path tracking controller design of automated parking systems via NMPC with an instructible solution
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning
CN117048639B (zh) 一种车辆自适应路径控制方法、存储介质及计算机
Xue et al. Learning Model Predictive Control with Error Dynamics Regression for Autonomous Racing
Wang et al. Robust MPC for perturbed nonholonomic vehicle
CN116540527B (zh) 一种矿用卡车模型预测变速轨迹跟踪控制方法
CN112486018B (zh) 一种基于速度自适应预瞄的无模型无人车路径跟踪方法
Su et al. A Dead Reckoning Method Based on Neural Network Optimized Kalman Filter
Aiswarya et al. Control of Self-Driving Cars using Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant