CN113359771A - 一种基于强化学习的智能自动驾驶控制方法 - Google Patents
一种基于强化学习的智能自动驾驶控制方法 Download PDFInfo
- Publication number
- CN113359771A CN113359771A CN202110763054.3A CN202110763054A CN113359771A CN 113359771 A CN113359771 A CN 113359771A CN 202110763054 A CN202110763054 A CN 202110763054A CN 113359771 A CN113359771 A CN 113359771A
- Authority
- CN
- China
- Prior art keywords
- model
- automatic driving
- value
- environment
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000004088 simulation Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000011217 control strategy Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 5
- 241000997494 Oneirodidae Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- BLRPTPMANUNPDV-UHFFFAOYSA-N Silane Chemical compound [SiH4] BLRPTPMANUNPDV-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000003381 stabilizer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于自动驾驶控制方法技术领域,具体涉及一种基于强化学习的智能自动驾驶控制方法,通过使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;将设计的任务转化为一个部分可观测的马尔可夫决策过程;基于python语言,利用Tensorflow框架,建立Dreamer算法模型;对输入的激光雷达信息进行预处理等处理过程,实现自动驾驶算法的快速训练,不需要设计复杂的控制策略和调试控制参数,且具有良好的泛化性和迁移性,可以适应不同的模拟与现实环境,有良好的自动驾驶效果。
Description
技术领域
本发明涉及自动驾驶控制方法技术领域,具体领域为一种基于强化学习的智能自动驾驶控制方法。
背景技术
汽车工业朝着共享化、电动化、网联化、智能化的方向快速发展,人工智能技术在智能驾驶方向表现出了极大的价值与潜力,其中,深度强化学习(deep reinforcementlearning,DRL)算法可以使智能体不断学习和表示环境的状态,并在每个给定的时刻给出当前最佳的行动方案,这也促使了智能自动驾驶汽车技术的发展,自动驾驶汽车又称无人驾驶汽车,是一种通过自动驾驶系统实现无人驾驶的智能汽车,在21世纪初已经呈现出接近实用化的趋势。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让汽车可以在没有任何人类主动的操作下,自动安全地操作机动车辆。然而现有的自动驾驶控制方法具有策略制定复杂、控制参数调试繁琐及环境适应性差的问题,为此提出一种基于强化学习的智能自动驾驶控制方法。
发明内容
本发明的目的在于提供一种基于强化学习的智能自动驾驶控制方法以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的智能自动驾驶控制方法,其方法包括如下步骤:
S1:使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差,通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体,其中,动作模型用来综合每个潜在状态对应的最佳动作,价值模型则用来评估每个潜在状态对应的价值:
动作模型:qφ(at|st)
价值模型:qψ(vt|st)
S5:对地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,设计如下奖励函数:
c*|st-st-1|=c*Δst
其中,st代表在t时刻车辆行驶的进度,c是常数;如果车辆与赛道边缘或障碍物发生碰撞,会得到-1的惩罚值,同时当前回合也会终止;
S6:在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,将每个动作都会被重复数次,训练结束后,将赛车放在赛道的起点位置,进行算法的评估,上述过程多次循环后,有效提高评估潜在环境和提高动作的有效性训练结束,得到最终的训练结果;
S7:将模拟环境的训练结果迁移到现实环境中,利用智能车硬件平台,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
优选的,S1中,任务的目标是以高维的激光雷达数据为输入。
其中,S,A,Ω分别是状态、动作、观测值的集合;
优选的,S3中,环境模型以循环状态空间模型的形式表示,而环境模型分为四部分,每部分都以深度神经网络的形式表示:
表示模型:pθ(st|st-1,at-1,ot)
观测模型:qθ(ot|st)
奖励模型:qθ(rt|st)
转移模型:qθ(st|st-1,at-1)
其中,p表示与环境交互的神经网络,q为在潜在想象空间中应用的神经网络;这四部分模型被联合优化,以使以下四个变量的下界最大化:
其中,DKL(P||Q)是P,Q两个概率分布的相对熵。
本发明的有益效果是:
1.本发明可实现自动驾驶算法的快速训练,不需要设计复杂的控制策略和调试控制参数。
2.本发明具有良好的泛化性和迁移性,可以适应不同的模拟与现实环境,有良好的自动驾驶效果。
附图说明
图1为本发明基于强化学习的智能车自动驾驶控制方法的智能车基本设置图;
图2为本发明基于强化学习的智能车自动驾驶控制方法的模拟环境中四个赛道示意图;
图3为本发明基于强化学习的智能车自动驾驶控制方法的在Austria地图训练的进度值曲线示意图;
图4为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR硬件结构图;
图5为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR软件结构图。
具体实施方式
下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1-5
S1:使用开源的物理引擎PyBullet建立模拟环境,使用如图2所示的Austria赛道,设计以圈速为评价标准的自动驾驶赛车任务,任务的目标是以高维的激光雷达数据为输入,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF(Unified RobotDescription Format)模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,选取面向车辆前方180°的720个采样点,因此,观测空间设置为{[0.0,25.0]m}720,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差。通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体。其中,动作模型输出如下:电机动力的输出范围为[-0.5,0.5]N,转向角度输出范围为[-0.42,0.42]rad;
S5:对Austria地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,这样每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,基于上述处理,设计c*|st-st-1|=c*Δst奖励函数;
S6:在训练开始之前,使用Follow-the-Gap方法对训练数据初始化,初始的数据集大小为5000步,在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,每个训练回合的时间步长上限为2000步,即20秒,为了评估潜在环境和提高动作的有效性,每个动作都会被重复8次,每训练100步,更新一次训练网络的权重,批数据的大小设置为50,环境模型的学习率设为0.0006,行为模型和价值模型的学习率为0.00008,奖励衰减率为0.99,训练结束后,将赛车放在赛道的起点位置,并且用智能体控制赛车行驶4000个时间步长的距离(即40秒),重复五次,将五次的进度值平均化,得到评价指标,共训练2×106个时间步长,得到最终的训练结果,如图3所示,Dreamer算法可以快速收敛并且完成单圈的自动驾驶任务;
S7:将模拟环境的训练结果迁移到现实环境中,采用RACECAR智能车硬件平台,如图4所示,底盘采用Traxxas Slash 4x4 Premium Edition,其中搭载了Traxxas Velineon3351R无刷DC电机,电机由VESC 6MkIV电子调速器控制,思岚的Rplidar A3激光雷达负责感知周围的环境,而算法运行在一个NVIDIA Jetson TX2边缘计算盒中,NVIDIA Jetson TX2搭载Ubuntu 18.04操作系统,其中的ROS(Robot Operating System)系统用于硬件信息的接收与发送。Dreamer算法运行在一个Docker容器中,软件结构如图5所示,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,将模拟环境中训练完成的模型文件放入ROS环境中,打开稳压器电源开关与电子调速器电源开关,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于强化学习的智能自动驾驶控制方法,其特征在于:其方法包括如下步骤:
S1:使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差,通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体,其中,动作模型用来综合每个潜在状态对应的最佳动作,价值模型则用来评估每个潜在状态对应的价值:
动作模型:qφ(at|st)
价值模型:qψ(vt|st)
S5:对地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,设计如下奖励函数:
c*|st-st-1|=c*Δst
其中,st代表在t时刻车辆行驶的进度,c是常数;如果车辆与赛道边缘或障碍物发生碰撞,会得到-1的惩罚值,同时当前回合也会终止;
S6:在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,将每个动作都会被重复数次,训练结束后,将赛车放在赛道的起点位置,进行算法的评估,上述过程多次循环后,训练结束,得到最终的训练结果;
S7:将模拟环境的训练结果迁移到现实环境中,利用智能车硬件平台,驱动电机前进的命令经过积分器处理,从而得到期望的前进速度,转向的命令通过一个自适应低通滤波器进行滤波,以避免高频率的转向动作,开启激光雷达ROS节点,运行Dreamer算法启动命令,即可实现智能车自动驾驶。
2.根据权利要求1所述的一种基于强化学习的智能自动驾驶控制方法,其特征在于:S1中,任务的目标是以高维的激光雷达数据为输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763054.3A CN113359771B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的智能自动驾驶控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763054.3A CN113359771B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的智能自动驾驶控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113359771A true CN113359771A (zh) | 2021-09-07 |
CN113359771B CN113359771B (zh) | 2022-09-30 |
Family
ID=77538522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763054.3A Active CN113359771B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的智能自动驾驶控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113359771B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995392A (zh) * | 2022-05-10 | 2022-09-02 | 重庆大学 | 一种移动机器人自适应转向调速装置 |
CN115431995A (zh) * | 2022-10-18 | 2022-12-06 | 广州万协通信息技术有限公司 | 基于不同级别辅助驾驶的设备控制方法及装置 |
CN115716500A (zh) * | 2023-01-10 | 2023-02-28 | 深圳曦华科技有限公司 | 车辆赛道模式中方向盘智能加热方法及装置 |
CN116091894A (zh) * | 2023-03-03 | 2023-05-09 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104309681A (zh) * | 2014-11-07 | 2015-01-28 | 贵州大学 | 一种实现智能车辆的自主转向的方法及装置 |
CN109446919A (zh) * | 2018-09-30 | 2019-03-08 | 贵州大学 | 一种基于端到端学习的视觉车道保持方法 |
US20190113929A1 (en) * | 2017-10-12 | 2019-04-18 | Honda Motor Co., Ltd. | Autonomous vehicle policy generation |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN110673602A (zh) * | 2019-10-24 | 2020-01-10 | 驭势科技(北京)有限公司 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
WO2020180014A2 (ko) * | 2019-03-05 | 2020-09-10 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
CN111845741A (zh) * | 2020-06-28 | 2020-10-30 | 江苏大学 | 一种基于分层强化学习的自动驾驶决策控制方法及系统 |
US20200368906A1 (en) * | 2019-05-20 | 2020-11-26 | Nvidia Corporation | Autonomous vehicle simulation using machine learning |
US20200387161A1 (en) * | 2019-06-05 | 2020-12-10 | GM Global Technology Operations LLC | Systems and methods for training an autonomous vehicle |
EP3800521A1 (en) * | 2019-10-01 | 2021-04-07 | Elektrobit Automotive GmbH | Deep learning based motion control of a vehicle |
EP3832420A1 (en) * | 2019-12-06 | 2021-06-09 | Elektrobit Automotive GmbH | Deep learning based motion control of a group of autonomous vehicles |
-
2021
- 2021-07-06 CN CN202110763054.3A patent/CN113359771B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104309681A (zh) * | 2014-11-07 | 2015-01-28 | 贵州大学 | 一种实现智能车辆的自主转向的方法及装置 |
US20190113929A1 (en) * | 2017-10-12 | 2019-04-18 | Honda Motor Co., Ltd. | Autonomous vehicle policy generation |
CN109446919A (zh) * | 2018-09-30 | 2019-03-08 | 贵州大学 | 一种基于端到端学习的视觉车道保持方法 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
KR20200108527A (ko) * | 2019-03-05 | 2020-09-21 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
WO2020180014A2 (ko) * | 2019-03-05 | 2020-09-10 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
US20200368906A1 (en) * | 2019-05-20 | 2020-11-26 | Nvidia Corporation | Autonomous vehicle simulation using machine learning |
US20200387161A1 (en) * | 2019-06-05 | 2020-12-10 | GM Global Technology Operations LLC | Systems and methods for training an autonomous vehicle |
EP3800521A1 (en) * | 2019-10-01 | 2021-04-07 | Elektrobit Automotive GmbH | Deep learning based motion control of a vehicle |
CN110673602A (zh) * | 2019-10-24 | 2020-01-10 | 驭势科技(北京)有限公司 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
EP3832420A1 (en) * | 2019-12-06 | 2021-06-09 | Elektrobit Automotive GmbH | Deep learning based motion control of a group of autonomous vehicles |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN111845741A (zh) * | 2020-06-28 | 2020-10-30 | 江苏大学 | 一种基于分层强化学习的自动驾驶决策控制方法及系统 |
Non-Patent Citations (2)
Title |
---|
YANTAO TIAN 等: "Learning to Drive Like Human Beings:A Method Based on Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS(EARLY ACCESS)》 * |
左思翔: "基于深度强化学习的无人驾驶智能决策控制研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995392A (zh) * | 2022-05-10 | 2022-09-02 | 重庆大学 | 一种移动机器人自适应转向调速装置 |
CN115431995A (zh) * | 2022-10-18 | 2022-12-06 | 广州万协通信息技术有限公司 | 基于不同级别辅助驾驶的设备控制方法及装置 |
CN115431995B (zh) * | 2022-10-18 | 2023-12-22 | 广州万协通信息技术有限公司 | 基于不同级别辅助驾驶的设备控制方法及装置 |
CN115716500A (zh) * | 2023-01-10 | 2023-02-28 | 深圳曦华科技有限公司 | 车辆赛道模式中方向盘智能加热方法及装置 |
CN115716500B (zh) * | 2023-01-10 | 2023-04-07 | 深圳曦华科技有限公司 | 车辆赛道模式中方向盘智能加热方法及装置 |
CN116091894A (zh) * | 2023-03-03 | 2023-05-09 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
CN116091894B (zh) * | 2023-03-03 | 2023-07-14 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113359771B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113359771B (zh) | 一种基于强化学习的智能自动驾驶控制方法 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN111483468B (zh) | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 | |
Wang et al. | Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN110525428B (zh) | 一种基于模糊深度强化学习的自动泊车方法 | |
CN108860139A (zh) | 一种基于深度增强学习的自动泊车轨迹规划方法 | |
CN115303297B (zh) | 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 | |
CN115469663B (zh) | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 | |
Li et al. | Human-like motion planning of autonomous vehicle based on probabilistic trajectory prediction | |
Onieva et al. | Overtaking opponents with blocking strategies using fuzzy logic | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN115303289A (zh) | 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备 | |
Voogd et al. | Reinforcement learning from simulation to real world autonomous driving using digital twin | |
CN115214672A (zh) | 一种考虑车间交互的自动驾驶类人决策、规划与控制方法 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
Wang et al. | Vision-based autonomous driving: A hierarchical reinforcement learning approach | |
Garzón et al. | Game theoretic decision making based on real sensor data for autonomous vehicles’ maneuvers in high traffic | |
Evans et al. | Bypassing the Simulation-to-reality Gap: Online Reinforcement Learning using a Supervisor | |
CN113033902A (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
Takehara et al. | Autonomous car parking system using deep reinforcement learning | |
CN111923916A (zh) | 一种基于视觉感知行为和anfis的仿人转向建模方法及转向控制系统 | |
CN113353102B (zh) | 一种基于深度强化学习的无保护左转弯驾驶控制方法 | |
CN115130295A (zh) | 针对仿真动力学偏差的决策方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Guangwei Inventor after: Yan Yu Inventor before: Yan Yu Inventor before: Wang Guangwei |