CN114355897A - 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 - Google Patents

一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 Download PDF

Info

Publication number
CN114355897A
CN114355897A CN202111536096.XA CN202111536096A CN114355897A CN 114355897 A CN114355897 A CN 114355897A CN 202111536096 A CN202111536096 A CN 202111536096A CN 114355897 A CN114355897 A CN 114355897A
Authority
CN
China
Prior art keywords
vehicle
network
model
control
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111536096.XA
Other languages
English (en)
Other versions
CN114355897B (zh
Inventor
陆志杰
张长柱
张皓
王祝萍
黄超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111536096.XA priority Critical patent/CN114355897B/zh
Publication of CN114355897A publication Critical patent/CN114355897A/zh
Application granted granted Critical
Publication of CN114355897B publication Critical patent/CN114355897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,包括以下步骤:根据规划层给出的轨迹和车辆运动学模型,使用模型预测控制算法得到控制策略一(控制策略包括对油门、刹车和方向盘的控制);同时根据规划层给出的轨迹,使用深度强化学习中的演员网络得到控制策略二;根据当前的车辆状态和环境状态信息,使用深度强化学习中的评论家网络对两种控制策略进行评估,并选择能够获得更高价值的控制策略进行实际的输出,实现车辆的路径跟踪控制。与现有技术相比,本发明将基于模型的经典方法和基于学习的新兴方法融合,具有灵活性强、稳健性好、控制性能更优等特点。

Description

一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
技术领域
本发明涉及自动驾驶车辆控制领域,特别涉及一种基于模型和强化学习混合切换的车辆路径跟踪控制方法。
背景技术
车辆控制策略的研究是无人驾驶领域的核心问题之一,是保障车辆安全、平稳、舒适地运行的关键因素。无人驾驶车辆控制指的是车辆运动控制模块根据规划的行驶轨迹和速度以及当前的位置、姿态和速度,计算出对油门、刹车、方向盘等车辆执行器的控制命令。经典的车辆控制算法为基于车辆运动学和动力学模型的模型预测控制算法,该类方法发展较为成熟,且有较深厚的理论背景。而该类控制方法会遇到车辆运动学、动力学模型复杂、难以准确建模等问题,通过模糊方法等来逼近真实模型仍有一定差距,当模型复杂度提升时,该类方法在优化求解过程中的计算量也会显著增加,消耗较多CPU计算资源并导致实时性降低。因此该类方法难以适应现实中复杂多变的环境,缺乏一定的智能性和自适应性。
为了应对复杂驾驶场景下的无人驾驶车辆控制,需要智能算法通过数据驱动的方式不断进行学习和优化,并在仿真和真实场景下完成测试和验证。随着人工智能领域研究的不断突破,基于深度强化学习的控制方法逐渐进入了大家的视野,这是一种典型的由经验驱动、自主学习的算法,并已在决策、规划和控制领域取得了一定的成果。该类方法无需任何手动标记的数据,只需智能体和环境进行不断地交互,从交互获得的驾驶经验中进行学习。而该类方法也存在一定的局限性,例如可解释性差、探索效率较低、训练收敛不稳定等。因此,如何结合模型预测控制和深度强化学习两类算法的优势,设计出一种灵活性强、稳健性好、性能更优的车辆控制算法是一个值得研究的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于模型和强化学习混合切换的车辆路径跟踪控制方法。
本发明的目的可以通过以下技术方案来实现:基于模型和强化学习混合切换的车辆路径跟踪控制方法,包括以下步骤:
S1:依据参考轨迹和车辆动力学模型,使用模型预测控制方法得到控制策略一。
首先,对车辆进行横向动力学建模,该类模型旨在建立高阶变量之间的联系,以更好地描述车辆转弯的非线性特性。
建模过程中,选取误差变量作为状态量,即
Figure BDA0003413189820000021
其中ey为车辆重心到参考轨迹的横向偏差,
Figure BDA0003413189820000022
为横向偏差的导数,eψ为车辆相对于参考轨迹的航向角偏差,
Figure BDA0003413189820000023
为航向角偏差的导数。具体车辆模型如下所示:
Figure BDA0003413189820000024
其中,Cαf和Cαr分别为车辆前轮和后轮的侧偏刚度,m为车辆的质量,Vx为车辆纵向速度(一般假设为恒定值),lf和lr分别为车辆前轮和后轮到重心的距离,Iz为车辆转动惯量,δ为前轮转角,即控制输入。
获得车辆横向动力学模型后,即可通过经典的模型预测控制方法进行控制策略的优化求解,我们建立如下形式的凸优化问题:
Figure BDA0003413189820000025
subject to(1)xk+1=Adxk+Bduk
(2)
Figure BDA0003413189820000026
(3)
Figure BDA0003413189820000027
(4)Δumaxmin
其中,N为预测的时间步数,QN、Q和R均为权重参数矩阵,条件(1)为离散化后的车辆横向动力学模型,其中Ad为离散化后的状态矩阵,Bd为离散化后的控制矩阵,条件(2)为对状态变量的约束,条件(3)为对控制输入的约束,条件(4)为对控制输入变化量的约束。通过求解以上的凸优化问题,即可得到控制策略一。
S2:依据参考轨迹和车辆状态信息,使用深度强化学习中的演员网络得到控制策略二。
进行演员网络的构建,采用4层神经网络的结构,第一层输入为车辆的状态信息,包括横向偏差、航向角偏差、车速、雷达传感信息等共29维输入,两个隐层节点数分别为300和600,最后输出是3维,即方向盘、油门和刹车,得到控制策略二。由于在模型预测控制中只考虑了车辆横向动力学,得到的控制策略只包含对方向盘的控制,因此在后续进行策略评估时,控制策略一默认使用演员网络给出的对油门和刹车的控制。
S3:依据车辆状态信息和环境信息,使用深度强化学习中的评论家网络对两种控制策略进行评估。
进行评论家网络的构建,采用5层神经网络的结构,第一层输入为车辆的状态信息,第二层分为两个部分:①对车辆状态信息的编码(节点数为300);②控制策略的融入(节点数为3,即方向盘、油门和刹车),第三层和第四层均为隐层,节点数均为600,最后输出层为对当前行驶状态下车辆控制策略的评价分数,分数越高则能达到更好的路径跟踪效果。因此,在实时的车辆驾驶控制中,选择控制策略一和控制策略二中能够获得更高评价分数的控制策略进行实际的输出,以取得更优的控制效果。
S4:设计合理的训练策略,使得演员网络和评论家网络能够收敛。
在给出具体训练步骤前,需先设计深度强化学习中的奖励函数r,以用于构建训练样本标签存储在回放经验池中,演员网络会在训练过程中朝着给出奖励最大化的策略进行梯度的学习。
具体算法训练步骤包括:
41)随机初始化演员网络μ(s|θμ)和评论家网络Q(s,a|θQ),其中θμ表示演员网络中的参数,θQ表示评论家网络中的参数。
42)初始化目标演员网络μ′和评论家网络Q′参数,即θμ←θμ,θQ←θQ
43)初始化回放经验池R。
44)训练过程需要M个连续驾驶片段,首先获取当前的车辆观测状态s1
441)在一个连续驾驶片段中的每一个时刻,根据当前的演员网络和探索噪声选取下一步采取的控制策略二μ(stμ)+Nt,其中Nt表示为根据动量关系选择的随机探索噪声。
442)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二进行评价选择价值更高的策略at进行实际的输出,记录获得的奖励rt并观测得到下一时刻的状态st+1,随后将(stat,rt,st+1)四元组存储于回放经验池中。
443)在回放经验池中随机采样N条经验信息(si,ai,ri,si+1),并根据强化学习理论中的价值公式构建训练目标:yi=ri+γQ′(si+1,μ′(si+1μ)|θQ)。
444)通过最小化损失函数,来更新评论家网络参数:
Figure BDA0003413189820000041
445)通过评论家网络导出的策略梯度来更新演员网络参数:
Figure BDA0003413189820000042
446)更新目标网络参数:
θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
经过上述步骤进行对演员网络和评论家网络的训练并收敛之后,演员网络能够给出在设计的奖励函数下最优的控制策略,评论家网络能够给出对不同控制策略的准确评价,在模型预测给出的控制策略一和演员网络给出的控制策略二中选择更优的控制策略进行实际的输出,以达到更好地控制效果。
附图说明
图1为本发明的方法流程示意图;
图2为车辆控制整体框架示意图;
图3为实施例奖励函数训练曲线;
图4为实施例横向偏差训练曲线;
图5为实施例平均速度训练曲线;
图6为实施例测试过程横向偏差曲线;
图7为实施例测试过程方向盘控制量曲线;
具体实施方式
以下结合附图,对本发明做进一步说明。
如图1所示,一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,包括以下步骤:
S1、依据参考轨迹和车辆动力学模型,使用模型预测控制方法得到控制策略一。
S2、依据参考轨迹和车辆状态信息,使用深度强化学习中的演员网络得到控制策略二。
S3、依据车辆状态信息和环境信息,使用深度强化学习中的评论家网络对两种控制策略进行评估。
S4、设计合理的训练策略,使得演员网络和评论家网络能够收敛。
上述的步骤S1具体包括以下步骤:
首先,选取误差变量作为状态量对车辆进行横向动力学建模,状态量为
Figure BDA0003413189820000051
其中ey为车辆重心到参考轨迹的横向偏差,
Figure BDA0003413189820000052
为横向偏差的导数,eψ为车辆相对于参考轨迹的航向角偏差,
Figure BDA0003413189820000053
为航向角偏差的导数。具体车辆模型如下所示:
Figure BDA0003413189820000054
其中,Cαf和Car分别为车辆前轮和后轮的侧偏刚度,均设定为40000N/rad,m为车辆的质量,设定为1150kg,Vx为车辆纵向速度(一般假设为恒定值),设定为20m/s,lf和lr分别为车辆前轮和后轮到重心的距离,分别设定为1.22m和1.42m,Iz为车辆转动惯量,设定为2873kg/m2,δ为前轮转角,即控制输入。
建立车辆横向动力学模型后,通过经典的模型预测控制方法进行控制策略的优化求解。通过设计合理的凸函数形式代价函数,选取合适的预测时间步数N、权重参数矩阵QN、Q和R,并限制求解的约束范围,建立如下形式的凸优化问题:
Figure BDA0003413189820000055
subject to(1)xk+1=Adxk+Bduk
(2)
Figure BDA0003413189820000057
(3)
Figure BDA0003413189820000058
(4)Δumaxmin
其中,条件(1)为离散化后的车辆横向动力学模型,条件(2)为对状态变量的约束,条件(3)为对控制输入的约束,条件(4)为对控制输入变化量的约束。通过求解以上的凸优化问题,即可得到控制策略一。
上述步骤S2具体为:搭建四层的演员网络,第一层输入为车辆的状态信息,包括航向角偏差、雷达传感信息、横向偏差、速度、车轮转速和发动机转速共29维输入,详细说明如下表所示:
表1状态信息
Figure BDA0003413189820000056
Figure BDA0003413189820000061
经过输入层后,两个隐层节点数分别为300和600,隐层均采用全连接结构,最后输出是3维,即方向盘、油门和刹车,得到控制策略二,其中方向盘输出选择tanh函数,即
Figure BDA0003413189820000062
该函数能够将输出平缓地映射在(-1,1)区间内,符合方向盘输出的特点。油门和刹车输出均选择sigmoid函数,即
Figure BDA0003413189820000063
该函数能够将输出平缓地映射在(0,1)区间内,符合方向盘输出的特点。
上述步骤S3具体为:搭建五层的评论家网络,第一层输入为车辆的状态信息,第二层分为两个部分:①对车辆状态信息的编码(节点数为300);②控制策略的融入(节点数为3,即方向盘、油门和刹车),第三层和第四层均为隐层,节点数均为600,最后输出层为对当前行驶状态下车辆控制策略的评价分数,分数越高则能达到更好的路径跟踪效果。
上述的步骤S4具体包括以下步骤:
设计深度强化学习中的奖励函数r,以用于构建训练样本标签存储在回放经验池中,具体的奖励函数形式为:r=Vx*(k1 cosψ-k2|ey|-k3|sinψ|-k4|u|-k5|Δu|),其中k1,k2,k3,k4,k5分别为权重参数,该奖励函数设计的目的在于使得纵向速度更大,同时要减小与参考轨迹的横向偏差和侧偏速度,此外通过引入控制量约束能够使得控制量更平缓,也能达到节约能量的效果。
41)随机初始化演员网络μ(s|θμ′)和评论家网络Q(s,a|θQ),其中θμ表示演员网络中的参数,θQ表示评论家网络中的参数。
42)初始化目标演员网络μ′和评论家网络Q′参数,即θμ′←θμ,θQ′←θQ
43)初始化回放经验池R。
44)训练过程需要M个连续驾驶片段,首先获取当前的车辆观测状态s1
441)在一个连续驾驶片段中的每一个时刻,根据当前的演员网络和探索噪声选取下一步采取的控制策略二μ(stμ)+Nt,其中Nt表示为根据动量关系选择的随机探索噪声。
442)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二进行评价选择价值更高的策略at进行实际的输出,记录获得的奖励rt并观测得到下一时刻的状态st+1,随后将(st,at,rt,st+1)四元组存储于回放经验池中。
443)在回放经验池中随机采样N条经验信息(si,ai,ri,si+1),并根据强化学习理论中的价值公式构建训练目标:yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)。
444)通过最小化损失函数,来更新评论家网络参数:
Figure BDA0003413189820000071
445)通过评论家网络导出的策略梯度来更新演员网络参数:
Figure BDA0003413189820000072
446)更新目标网络参数:
θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
具体的控制框图如图2所示,给定参考的路径和行驶环境感知信息,分别传递给演员网络和模型预测控制,并得到相应的下一步控制策略输出,随后传递给评论家网络进行评价,根据评价分数在控制策略一和控制策略二中进行切换,并得到最终的控制策略。随后,将该控制策略在被控对象上进行实际的输出,并获取到车辆下一时刻在行驶环境中的状态信息,形成闭环。
本实施例在TORCS车辆模拟器中进行了训练和验证。图3为奖励函数训练曲线,由图可知仅通过30个片段的训练学习,智能体就能够达到一个较高的奖励函数水平,掌握基本的驾驶策略。图4为横向偏差训练曲线,为每一个片段中所有时间步记录的横向偏差的平均值,可以看到经过200个片段的训练后,车辆的平均横向偏差能够稳定在0.15m以下,同时平均速度是高于25m/s的,在高速驾驶的情况下能够实现精准的路径跟踪控制。图6为测试过程横向偏差曲线,每个时间步为0.2s,图中表示的约为1min内的车辆运行横向偏差,在直线运行时的横向偏差是非常小的,在弯道运行时会有一定的偏差,与弯道的曲率和过弯的速度有关,根据曲线显示最大的横向偏差不会超过0.5m。图7为测试过程方向盘控制量曲线,通过设计合理的奖励函数,根据曲线显示控制量的输出相对平缓,能够保证驾驶的舒适性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,该方法包括下列步骤:
步骤1,依据参考轨迹和车辆动力学模型,使用模型预测控制方法得到控制策略一;
步骤2,依据参考轨迹和车辆状态信息,使用深度强化学习中的演员网络得到控制策略二;
步骤3,依据车辆状态信息和环境信息,使用深度强化学习中的评论家网络对步骤1、步骤2两种控制策略进行评估,并选择能够获得更高价值的控制策略进行实际的输出;
步骤4,设计合理的训练策略,使得演员网络和评论家网络能够收敛。
2.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,步骤3中,结合了模型预测控制和深度强化学习两类不同的控制方法,根据不同的场景能够选择更优的控制策略进行实际的输出。
3.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,步骤1中,模型预测控制方法:
首先对车辆进行横向跟踪动力学建模;具体地,选取误差变量作为状态量进行建模,即
Figure FDA0003413189810000011
其中ey为车辆重心到参考轨迹的横向偏差,
Figure FDA0003413189810000012
为横向偏差的导数,eψ为车辆相对于参考轨迹的航向角偏差,
Figure FDA0003413189810000013
为航向角偏差的导数;具体车辆模型如下所示:
Figure FDA0003413189810000014
其中,Cαf和Cαr分别为车辆前轮和后轮的侧偏刚度,m为车辆的质量,Vx为车辆纵向速度(一般假设为恒定值),lf和lr分别为车辆前轮和后轮到重心的距离,Iz为车辆转动惯量,δ为前轮转角,即控制输入;
然后,通过凸优化方法进行控制策略的优化求解,具体的问题形式如下:
Figure FDA0003413189810000015
subject to(1)xk+1=Adxk+Bduk
(2)
Figure FDA0003413189810000016
(3)
Figure FDA0003413189810000017
(4)Δumaxmin
其中,N为预测的时间步数,QN、Q和R均为权重参数矩阵,条件(1)为离散化后的车辆横向动力学模型,条件(2)为对状态变量的约束,条件(3)为对控制输入的约束,条件(4)为对控制输入变化量的约束;通过求解以上的凸优化问题,即可得到控制策略一。
4.根据权利要求2所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,步骤2中,深度强化学习方法:
由演员网络给出控制策略,随后由评论家网络对当前状态下的控制策略进行评价;通过设计合理的奖励函数和训练策略、并经过大量样本的训练后,演员网络能够给出获得更高价值的控制策略,评论家网络能够给出对策略的准确评价。
5.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,所述演员网络,采用4层神经网络的结构,能够依据参考轨迹和车辆状态信息给出相应的控制策略;具体地,演员网络第一层输入为车辆的状态信息,包括航向角偏差、雷达传感信息、横向偏差、速度、车轮转速和发动机转速共29维,两个隐层节点数分别为300和600,最后输出是3维,即方向盘、油门和刹车,得到控制策略二。
6.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,所述评论家网络,采用5层神经网络的结构,能够依据车辆状态信息和环境信息对控制策略进行评估;具体地,评论家第一层输入为车辆的状态信息,第二层分为两个部分:①对车辆状态信息的编码(节点数为300);②控制策略的融入(节点数为3,即方向盘、油门和刹车),第三层和第四层均为隐层,节点数均为600,最后输出层为对当前行驶状态下车辆控制策略的评价分数,分数越高则能达到更好的路径跟踪效果。
7.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,所述奖励函数,构建深度强化学习训练的数据标签,并和状态、动作组成经验元组存储在回放经验池中;演员网络会在训练过程中朝着给出奖励最大化的策略进行梯度的学习;具体的奖励函数形式为:
r=Vx*(k1 cos eψ-k2|ey|-k3|sin eψ|-k4|u|-k5|Δu|),
其中k1,k2,k3,k4,k5分别为权重参数,该奖励函数设计的目的在于使得纵向速度更大,同时要减小与参考轨迹的横向偏差和侧偏速度,此外通过引入控制量约束能够使得控制量更平缓,也能达到节约能量的效果。
8.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法,其特征在于,所述训练策略,具体算法训练步骤为:
1)随机初始化演员网络μ(s|θμ)和评论家网络Q(s,a|θQ),其中s表示状态,θμ表示演员网络中的参数,θQ表示评论家网络中的参数;
2)初始化目标演员网络μ′和评论家网络Q′参数,即θμ′←θμ,θQ′←θQ
3)初始化回放经验池R;
4)训练过程需要M个连续驾驶片段,首先获取当前的车辆观测状态s1
41)在一个连续驾驶片段中的每一个时刻,根据当前的演员网络和探索噪声选取下一步采取的控制策略二μ(stμ)+Nt,其中Nt表示为根据动量关系选择的随机探索噪声;
42)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二,进行评价选择价值更高的策略at为实际的输出,记录获得的奖励rt并观测得到下一时刻的状态st+1,随后将(st,at,rt,st+1)四元组存储于回放经验池中;
43)在回放经验池中随机采样N条经验信息(si,ai,ri,si+1),并根据强化学习理论中的价值公式构建训练目标:yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
44)通过最小化损失函数,来更新评论家网络参数:
Figure FDA0003413189810000031
45)通过评论家网络导出的策略梯度来更新演员网络参数:
Figure FDA0003413189810000032
46)更新目标网络参数:
θQ′←τθQ+(1-τ)θQ′μ′←τθμ+(1-τ)θμ′
CN202111536096.XA 2021-12-15 2021-12-15 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 Active CN114355897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111536096.XA CN114355897B (zh) 2021-12-15 2021-12-15 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111536096.XA CN114355897B (zh) 2021-12-15 2021-12-15 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法

Publications (2)

Publication Number Publication Date
CN114355897A true CN114355897A (zh) 2022-04-15
CN114355897B CN114355897B (zh) 2023-08-29

Family

ID=81098467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111536096.XA Active CN114355897B (zh) 2021-12-15 2021-12-15 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法

Country Status (1)

Country Link
CN (1) CN114355897B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116300977A (zh) * 2023-05-22 2023-06-23 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109318905A (zh) * 2018-08-22 2019-02-12 江苏大学 一种智能汽车路径跟踪混合控制方法
RU2691679C1 (ru) * 2018-02-15 2019-06-17 Андрей Владимирович ВАВИЛИН Способ создания трека пути движения для автономного движения подвижного объекта и способ осуществления автономного движения подвижного объекта по треку пути движения
CN110989597A (zh) * 2019-12-05 2020-04-10 南京理工大学 一种集成模糊神经网络的自适应路径跟踪方法
US20200216085A1 (en) * 2019-01-04 2020-07-09 Toyota Research Institute, Inc. Systems and methods for controlling a vehicle based on vehicle states and constraints of the vehicle
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2691679C1 (ru) * 2018-02-15 2019-06-17 Андрей Владимирович ВАВИЛИН Способ создания трека пути движения для автономного движения подвижного объекта и способ осуществления автономного движения подвижного объекта по треку пути движения
CN109318905A (zh) * 2018-08-22 2019-02-12 江苏大学 一种智能汽车路径跟踪混合控制方法
US20200216085A1 (en) * 2019-01-04 2020-07-09 Toyota Research Institute, Inc. Systems and methods for controlling a vehicle based on vehicle states and constraints of the vehicle
CN110989597A (zh) * 2019-12-05 2020-04-10 南京理工大学 一种集成模糊神经网络的自适应路径跟踪方法
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨阳阳;何志刚;汪若尘;陈龙;: "智能车辆路径跟踪横向混合控制器设计", 重庆理工大学学报(自然科学), no. 11 *
蔡英凤;李健;孙晓强;陈龙;江浩斌;何友国;陈小波;: "智能汽车路径跟踪混合控制策略研究", 中国机械工程, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116300977A (zh) * 2023-05-22 2023-06-23 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置
CN116300977B (zh) * 2023-05-22 2023-07-21 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置

Also Published As

Publication number Publication date
CN114355897B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110745136A (zh) 一种驾驶自适应控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN112389436A (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN113264043A (zh) 基于深度强化学习的无人驾驶分层运动决策控制方法
CN116476825B (zh) 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
Zhang et al. Trajgen: Generating realistic and diverse trajectories with reactive and feasible agent behaviors for autonomous driving
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN114355897B (zh) 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN116486356A (zh) 一种基于自适应学习技术的狭窄场景轨迹生成方法
Hou et al. Autonomous driving at the handling limit using residual reinforcement learning
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法
Kebbati et al. Autonomous driving using GA-optimized neural network based adaptive LPV-MPC controller
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
CN114386620A (zh) 一种基于动作约束的离线多智能体强化学习方法
CN107657106A (zh) 基于遗传算法的交通流模拟方法
Wang et al. An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant