CN113359771A - 一种基于强化学习的智能自动驾驶控制方法 - Google Patents

一种基于强化学习的智能自动驾驶控制方法 Download PDF

Info

Publication number
CN113359771A
CN113359771A CN202110763054.3A CN202110763054A CN113359771A CN 113359771 A CN113359771 A CN 113359771A CN 202110763054 A CN202110763054 A CN 202110763054A CN 113359771 A CN113359771 A CN 113359771A
Authority
CN
China
Prior art keywords
model
automatic driving
value
environment
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110763054.3A
Other languages
English (en)
Other versions
CN113359771B (zh
Inventor
颜宇
王广玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202110763054.3A priority Critical patent/CN113359771B/zh
Publication of CN113359771A publication Critical patent/CN113359771A/zh
Application granted granted Critical
Publication of CN113359771B publication Critical patent/CN113359771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于自动驾驶控制方法技术领域,具体涉及一种基于强化学习的智能自动驾驶控制方法,通过使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;将设计的任务转化为一个部分可观测的马尔可夫决策过程;基于python语言,利用Tensorflow框架,建立Dreamer算法模型;对输入的激光雷达信息进行预处理等处理过程,实现自动驾驶算法的快速训练,不需要设计复杂的控制策略和调试控制参数,且具有良好的泛化性和迁移性,可以适应不同的模拟与现实环境,有良好的自动驾驶效果。

Description

一种基于强化学习的智能自动驾驶控制方法
技术领域
本发明涉及自动驾驶控制方法技术领域,具体领域为一种基于强化学习的智能自动驾驶控制方法。
背景技术
汽车工业朝着共享化、电动化、网联化、智能化的方向快速发展,人工智能技术在智能驾驶方向表现出了极大的价值与潜力,其中,深度强化学习(deep reinforcementlearning,DRL)算法可以使智能体不断学习和表示环境的状态,并在每个给定的时刻给出当前最佳的行动方案,这也促使了智能自动驾驶汽车技术的发展,自动驾驶汽车又称无人驾驶汽车,是一种通过自动驾驶系统实现无人驾驶的智能汽车,在21世纪初已经呈现出接近实用化的趋势。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让汽车可以在没有任何人类主动的操作下,自动安全地操作机动车辆。然而现有的自动驾驶控制方法具有策略制定复杂、控制参数调试繁琐及环境适应性差的问题,为此提出一种基于强化学习的智能自动驾驶控制方法。
发明内容
本发明的目的在于提供一种基于强化学习的智能自动驾驶控制方法以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的智能自动驾驶控制方法,其方法包括如下步骤:
S1:使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差,通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体,其中,动作模型用来综合每个潜在状态对应的最佳动作,价值模型则用来评估每个潜在状态对应的价值:
动作模型:qφ(at|st)
价值模型:qψ(vt|st)
S5:对地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,设计如下奖励函数:
c*|st-st-1|=c*Δst
其中,st代表在t时刻车辆行驶的进度,c是常数;如果车辆与赛道边缘或障碍物发生碰撞,会得到-1的惩罚值,同时当前回合也会终止;
S6:在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,将每个动作都会被重复数次,训练结束后,将赛车放在赛道的起点位置,进行算法的评估,上述过程多次循环后,有效提高评估潜在环境和提高动作的有效性训练结束,得到最终的训练结果;
S7:将模拟环境的训练结果迁移到现实环境中,利用智能车硬件平台,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
优选的,S1中,任务的目标是以高维的激光雷达数据为输入。
优选的,S2中,一个部分可观测的马尔可夫决策过程是由
Figure BDA0003150698190000031
构成的一个元组,
其中,S,A,Ω分别是状态、动作、观测值的集合;
Figure BDA0003150698190000032
Figure BDA0003150698190000033
分别是预测的观测值和状态转移函数;
Figure BDA0003150698190000034
是确定性的奖励函数;
状态转移函数
Figure BDA0003150698190000035
是系统及其不确定性的模型,定义为:
Figure BDA0003150698190000036
其输出的值为在执行一个动作后两个状态之间转移的概率;
观测函数
Figure BDA0003150698190000037
是系统对环境的感知及其不确定性的模型,定义为:
Figure BDA0003150698190000038
其输出的值为在一个给定的状态下感知到一个观测值的概率;
奖励函数的定义为
Figure BDA0003150698190000039
输出的值为状态转移的可信度。
优选的,S3中,环境模型以循环状态空间模型的形式表示,而环境模型分为四部分,每部分都以深度神经网络的形式表示:
表示模型:pθ(st|st-1,at-1,ot)
观测模型:qθ(ot|st)
奖励模型:qθ(rt|st)
转移模型:qθ(st|st-1,at-1)
其中,p表示与环境交互的神经网络,q为在潜在想象空间中应用的神经网络;这四部分模型被联合优化,以使以下四个变量的下界最大化:
Figure BDA0003150698190000041
Figure BDA0003150698190000042
Figure BDA0003150698190000043
Figure BDA0003150698190000044
其中,DKL(P||Q)是P,Q两个概率分布的相对熵。
本发明的有益效果是:
1.本发明可实现自动驾驶算法的快速训练,不需要设计复杂的控制策略和调试控制参数。
2.本发明具有良好的泛化性和迁移性,可以适应不同的模拟与现实环境,有良好的自动驾驶效果。
附图说明
图1为本发明基于强化学习的智能车自动驾驶控制方法的智能车基本设置图;
图2为本发明基于强化学习的智能车自动驾驶控制方法的模拟环境中四个赛道示意图;
图3为本发明基于强化学习的智能车自动驾驶控制方法的在Austria地图训练的进度值曲线示意图;
图4为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR硬件结构图;
图5为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR软件结构图。
具体实施方式
下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1-5
S1:使用开源的物理引擎PyBullet建立模拟环境,使用如图2所示的Austria赛道,设计以圈速为评价标准的自动驾驶赛车任务,任务的目标是以高维的激光雷达数据为输入,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF(Unified RobotDescription Format)模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,选取面向车辆前方180°的720个采样点,因此,观测空间设置为{[0.0,25.0]m}720,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差。通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体。其中,动作模型输出如下:电机动力的输出范围为[-0.5,0.5]N,转向角度输出范围为[-0.42,0.42]rad;
S5:对Austria地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,这样每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,基于上述处理,设计c*|st-st-1|=c*Δst奖励函数;
S6:在训练开始之前,使用Follow-the-Gap方法对训练数据初始化,初始的数据集大小为5000步,在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,每个训练回合的时间步长上限为2000步,即20秒,为了评估潜在环境和提高动作的有效性,每个动作都会被重复8次,每训练100步,更新一次训练网络的权重,批数据的大小设置为50,环境模型的学习率设为0.0006,行为模型和价值模型的学习率为0.00008,奖励衰减率为0.99,训练结束后,将赛车放在赛道的起点位置,并且用智能体控制赛车行驶4000个时间步长的距离(即40秒),重复五次,将五次的进度值平均化,得到评价指标,共训练2×106个时间步长,得到最终的训练结果,如图3所示,Dreamer算法可以快速收敛并且完成单圈的自动驾驶任务;
S7:将模拟环境的训练结果迁移到现实环境中,采用RACECAR智能车硬件平台,如图4所示,底盘采用Traxxas Slash 4x4 Premium Edition,其中搭载了Traxxas Velineon3351R无刷DC电机,电机由VESC 6MkIV电子调速器控制,思岚的Rplidar A3激光雷达负责感知周围的环境,而算法运行在一个NVIDIA Jetson TX2边缘计算盒中,NVIDIA Jetson TX2搭载Ubuntu 18.04操作系统,其中的ROS(Robot Operating System)系统用于硬件信息的接收与发送。Dreamer算法运行在一个Docker容器中,软件结构如图5所示,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,将模拟环境中训练完成的模型文件放入ROS环境中,打开稳压器电源开关与电子调速器电源开关,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于强化学习的智能自动驾驶控制方法,其特征在于:其方法包括如下步骤:
S1:使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差,通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体,其中,动作模型用来综合每个潜在状态对应的最佳动作,价值模型则用来评估每个潜在状态对应的价值:
动作模型:qφ(at|st)
价值模型:qψ(vt|st)
S5:对地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,设计如下奖励函数:
c*|st-st-1|=c*Δst
其中,st代表在t时刻车辆行驶的进度,c是常数;如果车辆与赛道边缘或障碍物发生碰撞,会得到-1的惩罚值,同时当前回合也会终止;
S6:在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,将每个动作都会被重复数次,训练结束后,将赛车放在赛道的起点位置,进行算法的评估,上述过程多次循环后,训练结束,得到最终的训练结果;
S7:将模拟环境的训练结果迁移到现实环境中,利用智能车硬件平台,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
2.根据权利要求1所述的一种基于强化学习的智能自动驾驶控制方法,其特征在于:S1中,任务的目标是以高维的激光雷达数据为输入。
3.根据权利要求2所述的一种基于强化学习的智能自动驾驶控制方法,其特征在于:S2中,一个部分可观测的马尔可夫决策过程是由
Figure FDA0003150698180000021
构成的一个元组,
其中,S,A,Ω分别是状态、动作、观测值的集合;
O和
Figure FDA0003150698180000026
分别是预测的观测值和状态转移函数;
Figure FDA0003150698180000022
是确定性的奖励函数;
状态转移函数
Figure FDA0003150698180000023
是系统及其不确定性的模型,定义为:
Figure FDA0003150698180000024
其输出的值为在执行一个动作后两个状态之间转移的概率;
观测函数O是系统对环境的感知及其不确定性的模型,定义为:
O:S×Ω→[0,1],其输出的值为在一个给定的状态下感知到一个观测值的概率;
奖励函数的定义为
Figure FDA0003150698180000025
输出的值为状态转移的可信度。
4.根据权利要求3所述的一种基于强化学习的智能自动驾驶控制方法,其特征在于:S3中,环境模型以循环状态空间模型的形式表示,而环境模型分为四部分,每部分都以深度神经网络的形式表示:
表示模型:pθ(st|st-1,at-1,ot)
观测模型:qθ(ot|st)
奖励模型:qθ(rt|st)
转移模型:qθ(st|st-1,at-1)
其中,p表示与环境交互的神经网络,q为在潜在想象空间中应用的神经网络;这四部分模型被联合优化,以使以下四个变量的下界最大化:
Figure FDA0003150698180000031
Figure FDA0003150698180000032
Figure FDA0003150698180000033
Figure FDA0003150698180000034
其中,DKL(P||Q)是P,Q两个概率分布的相对熵。
CN202110763054.3A 2021-07-06 2021-07-06 一种基于强化学习的智能自动驾驶控制方法 Active CN113359771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763054.3A CN113359771B (zh) 2021-07-06 2021-07-06 一种基于强化学习的智能自动驾驶控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763054.3A CN113359771B (zh) 2021-07-06 2021-07-06 一种基于强化学习的智能自动驾驶控制方法

Publications (2)

Publication Number Publication Date
CN113359771A true CN113359771A (zh) 2021-09-07
CN113359771B CN113359771B (zh) 2022-09-30

Family

ID=77538522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763054.3A Active CN113359771B (zh) 2021-07-06 2021-07-06 一种基于强化学习的智能自动驾驶控制方法

Country Status (1)

Country Link
CN (1) CN113359771B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995392A (zh) * 2022-05-10 2022-09-02 重庆大学 一种移动机器人自适应转向调速装置
CN115431995A (zh) * 2022-10-18 2022-12-06 广州万协通信息技术有限公司 基于不同级别辅助驾驶的设备控制方法及装置
CN115716500A (zh) * 2023-01-10 2023-02-28 深圳曦华科技有限公司 车辆赛道模式中方向盘智能加热方法及装置
CN116091894A (zh) * 2023-03-03 2023-05-09 小米汽车科技有限公司 模型训练方法、车辆控制方法、装置、设备、车辆及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104309681A (zh) * 2014-11-07 2015-01-28 贵州大学 一种实现智能车辆的自主转向的方法及装置
CN109446919A (zh) * 2018-09-30 2019-03-08 贵州大学 一种基于端到端学习的视觉车道保持方法
US20190113929A1 (en) * 2017-10-12 2019-04-18 Honda Motor Co., Ltd. Autonomous vehicle policy generation
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109976340A (zh) * 2019-03-19 2019-07-05 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
WO2020180014A2 (ko) * 2019-03-05 2020-09-10 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
US20200368906A1 (en) * 2019-05-20 2020-11-26 Nvidia Corporation Autonomous vehicle simulation using machine learning
US20200387161A1 (en) * 2019-06-05 2020-12-10 GM Global Technology Operations LLC Systems and methods for training an autonomous vehicle
EP3800521A1 (en) * 2019-10-01 2021-04-07 Elektrobit Automotive GmbH Deep learning based motion control of a vehicle
EP3832420A1 (en) * 2019-12-06 2021-06-09 Elektrobit Automotive GmbH Deep learning based motion control of a group of autonomous vehicles

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104309681A (zh) * 2014-11-07 2015-01-28 贵州大学 一种实现智能车辆的自主转向的方法及装置
US20190113929A1 (en) * 2017-10-12 2019-04-18 Honda Motor Co., Ltd. Autonomous vehicle policy generation
CN109446919A (zh) * 2018-09-30 2019-03-08 贵州大学 一种基于端到端学习的视觉车道保持方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
KR20200108527A (ko) * 2019-03-05 2020-09-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
WO2020180014A2 (ko) * 2019-03-05 2020-09-10 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
CN109976340A (zh) * 2019-03-19 2019-07-05 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
US20200368906A1 (en) * 2019-05-20 2020-11-26 Nvidia Corporation Autonomous vehicle simulation using machine learning
US20200387161A1 (en) * 2019-06-05 2020-12-10 GM Global Technology Operations LLC Systems and methods for training an autonomous vehicle
EP3800521A1 (en) * 2019-10-01 2021-04-07 Elektrobit Automotive GmbH Deep learning based motion control of a vehicle
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
EP3832420A1 (en) * 2019-12-06 2021-06-09 Elektrobit Automotive GmbH Deep learning based motion control of a group of autonomous vehicles
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANTAO TIAN 等: "Learning to Drive Like Human Beings:A Method Based on Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS(EARLY ACCESS)》 *
左思翔: "基于深度强化学习的无人驾驶智能决策控制研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995392A (zh) * 2022-05-10 2022-09-02 重庆大学 一种移动机器人自适应转向调速装置
CN115431995A (zh) * 2022-10-18 2022-12-06 广州万协通信息技术有限公司 基于不同级别辅助驾驶的设备控制方法及装置
CN115431995B (zh) * 2022-10-18 2023-12-22 广州万协通信息技术有限公司 基于不同级别辅助驾驶的设备控制方法及装置
CN115716500A (zh) * 2023-01-10 2023-02-28 深圳曦华科技有限公司 车辆赛道模式中方向盘智能加热方法及装置
CN115716500B (zh) * 2023-01-10 2023-04-07 深圳曦华科技有限公司 车辆赛道模式中方向盘智能加热方法及装置
CN116091894A (zh) * 2023-03-03 2023-05-09 小米汽车科技有限公司 模型训练方法、车辆控制方法、装置、设备、车辆及介质
CN116091894B (zh) * 2023-03-03 2023-07-14 小米汽车科技有限公司 模型训练方法、车辆控制方法、装置、设备、车辆及介质

Also Published As

Publication number Publication date
CN113359771B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN113359771B (zh) 一种基于强化学习的智能自动驾驶控制方法
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
Wang et al. Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN110525428B (zh) 一种基于模糊深度强化学习的自动泊车方法
CN108860139A (zh) 一种基于深度增强学习的自动泊车轨迹规划方法
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
CN115469663B (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
Li et al. Human-like motion planning of autonomous vehicle based on probabilistic trajectory prediction
Onieva et al. Overtaking opponents with blocking strategies using fuzzy logic
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
Voogd et al. Reinforcement learning from simulation to real world autonomous driving using digital twin
CN115214672A (zh) 一种考虑车间交互的自动驾驶类人决策、规划与控制方法
CN117872800A (zh) 一种基于离散状态空间下强化学习的决策规划方法
Wang et al. Vision-based autonomous driving: A hierarchical reinforcement learning approach
Garzón et al. Game theoretic decision making based on real sensor data for autonomous vehicles’ maneuvers in high traffic
Evans et al. Bypassing the Simulation-to-reality Gap: Online Reinforcement Learning using a Supervisor
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Takehara et al. Autonomous car parking system using deep reinforcement learning
CN111923916A (zh) 一种基于视觉感知行为和anfis的仿人转向建模方法及转向控制系统
CN113353102B (zh) 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN115130295A (zh) 针对仿真动力学偏差的决策方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Guangwei

Inventor after: Yan Yu

Inventor before: Yan Yu

Inventor before: Wang Guangwei