CN109492763B - 一种基于强化学习网络训练的自动泊车方法 - Google Patents
一种基于强化学习网络训练的自动泊车方法 Download PDFInfo
- Publication number
- CN109492763B CN109492763B CN201811092800.5A CN201811092800A CN109492763B CN 109492763 B CN109492763 B CN 109492763B CN 201811092800 A CN201811092800 A CN 201811092800A CN 109492763 B CN109492763 B CN 109492763B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- reinforcement learning
- network
- training
- driving strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于强化学习网络训练的自动泊车方法,该方法包括步骤:1)对车辆判断是否进行实车训练,若是,则执行步骤2)后进入步骤6),否则执行步骤3)后进入步骤4)~6);2)针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行训练,获取与车辆控制对应的驾驶策略模型;3)针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行仿真训练,获取与车辆控制对应的驾驶策略模型;4)采用迁移学习将获取的驾驶策略模型应用于实车;5)完善驾驶策略模型,输出车辆的控制指令;6)根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。与现有技术相比,本发明具有加速收敛、具有较好的鲁棒性等优点。
Description
技术领域
本发明涉及智能汽车自动泊车规划技术领域,尤其是涉及一种基于强化学习网络训练的自动泊车方法。
背景技术
传统采用轨迹规划和轨迹跟踪的自动泊车系统,因为可能存在轨迹跟踪误差、执行器控制误差、以及环境扰动等状况,导致规划的轨迹和实际的轨迹不一致,泊车效果不佳。强化学习是一种端到端的控制算法,强化学习理论上将跟踪和控制环节的误差考虑在了模型的策略之中,从而理论上跟踪和控制误差造成的负面影响。但是强化学习的建模和训练需要一定的经验和技巧,考虑到车载控制器的处理性能,强化学习网络的输入为相对自车的库位角点坐标,输出为方向盘转角、油门、刹车控制指令。现有技术中的强化学习的训练结果不稳定,且训练收敛速度不佳,存在大量试错和陷入局部最优的可能。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种训练结果稳定、提高收敛速度的基于强化学习的自动泊车方法。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习网络训练的自动泊车方法,该方法包括下列步骤:
S1:对待泊车的车辆判断是否直接进行实车训练,若是,则执行步骤S2后进入步骤S6,否则,执行步骤S3后依次进入步骤S4、S5、S6。
优选地,可根据需要选择是否直接进行实车训练,因实车训练具有一定的危险性,同时耗时较久,若先进行仿真训练再进行实车训练有利于加速训练过程。
S2:针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行训练,获取与车辆控制对应的驾驶策略模型,将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的控制指令。
S3:针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行仿真训练,获取与车辆控制对应的驾驶策略模型。具体包括以下步骤:
301)通过行为克隆训练行为网络,获取行为网络参数;
302)利用获取的行为网络参数对深度强化学习网络的行为网络进行初始化;
303)在深度强化学习的训练初期阶段进行经验序列积累,针对车辆相对库位的初始位姿人工设定控制指令,并对人工设定的控制指令叠加噪声;
304)在深度强化学习的训练过程中对输入的状态量中叠加符合传感器误差特性的噪声。
优选地,所述的深度强化学习网络采用AC网络、DDPG网络、DPG网络或PPO网络。
当采用AC网络时,将步骤301)的行为网络训练获取的参数初始化深度强化学习AC网络中的行为网络。
当采用DDPG网络时,将步骤301)的行为网络训练获取的参数初始化深度强化学习DDPG网络中的行为网络和目标行为网络。
优选地,所述的经验序列包括当前观察环境信息、所选择的动作信息、动作回报信息和下一观察环境信息。
优选地,所述的状态量包括当前环境信息、车辆的状态信息及位姿信息。
S4:采用迁移学习,在仿真训练获取的驾驶策略模型的最后添加一层或替换原强化学习网络的最后一层,并在实车上继续进行适应性训练。
S5:完善驾驶策略模型,将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的控制指令。具体包括以下步骤:
501)车辆在当前的环境和状态下,基于驾驶策略信息执行相应的驾驶操作,确定回馈函数值;
502)通过回馈函数的设置,控制车辆与其所处环境发生交互的循环过程,调整车辆的驾驶策略信息,逐步训练并完善与车辆控制对应的驾驶策略模型;
503)将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的方向盘转角控制指令、油门控制指令及刹车控制指令。
S6:根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。
与现有技术相比,本发明具有以下优点:
(1)本发明提供了从仿真训练迁移到实车使用的思路,避免了大量试错和陷入局部最优的可能的问题,且能够提高本发明方法的应用性;
(2)本发明在训练过程中,对深度强化学习的训练过程中输入的状态量加入符合传感器误差特性的噪声,增强了模型输出的鲁棒性;
(3)本发明在人工设定的控制指令的基础上加上一定的噪声便于探索更优秀的策略,使得在采集的状态行为反馈序列库中,相比采取随机探索,会有更大比例的反馈,进而能够让训练更快地实现收敛,此外,本发明使用了行为克隆进行预训练,可进一步提了训练收敛速度。
附图说明
图1为本发明实施例中强化学习应用于自动泊车场景的建模和训练方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
基于强化学习的训练过程不局限为某一具体强化学习算法,而是基于Actor-Critic(演员-评论家)的这一类别的强化学习算法。为了较为具体地介绍,本实施例以DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)为例对本发明方法进行说明。
本发明涉及一种基于强化学习网络训练的自动泊车方法,该方法包括以下步骤:
步骤1:对待泊车的车辆判断是否直接进行实车训练。
若直接进行实车训练,则执行步骤2),进行构建强化学习网络模型并进行训练;若不直接进行实车训练,则按步骤2)进行仿真训练后,进行迁移学习,将训练后的模型应用于实车。
因为直接上实车进行强化学习训练需要耗费大量的人力、时间和资源,所以先在仿真环境中训练再将迁移到实车是更优的选择。但是因为仿真环境中,车辆模型、传感器模型等物流模型可能和现实中不一致,即使相同的控制指令所产生的结果(下一观察)都是不一样的,因此需要对仿真训练好的深度强化学习网络模型进行迁移学习训练,具体执行方法可以选择在原DDPG的Actor(行为)网络和Target Actor(目标行为)网络中的最后再添加一层,或去除原来的最后一层网络,再替换一层随机初始化的网络,或不改变网络结构;在上述操作结束后,进行实车的强化学习训练。
步骤2:针对自动泊车工况建立合适的强化学习网络模型,并对强化学习网络进行训练。
首先通过轨迹规划加轨迹跟踪的方式,使车辆在不同的初始位姿下能够准确泊入库位的经验序列库,并利用经验序列库,采用行为克隆(模仿学习)的方法训练BP神经网络,BP神经网络的输入为库位相对车辆的位姿和车辆的状态信息,输出为车辆控制指令,例如方向盘转角和车速。
在上述训练完成后,获取BP神经网络的行为网络参数,并应用该参数权值初始化DDPG的Actor网络和Target Actor网络,并随机初始化DDPG的Critic(评论家)和TargetCritic(目标评论家)网络。
在深度强化学习网络训练之前,需要先进行探索,用来积累初始的经验序列库,经验序列包括当前观察、所选择的动作、回报和下一观察。这个探索过程可以加以人工引导,例如,通过专家经验,针对当前观察选择一个合适的动作(控制指令),在此控制指令的基础上叠加适当程度的噪声给予模型探索更好策略和试错的空间,但又能够保证一定概率上生成符合预期的经验序列。这样可以缩短强化学习在初期探索的试错探索时间,使强化学习训练的自动泊车控制指令尽快收敛到符合正常驾驶预期的控制指令。
在进行深度强化学习的训练过程中,采用Off-Policy(离线训练策略),为了加速训练进程,可以在训练初期采集经验序列(s,a,r,s’)的时候,加以人工引导,即不采取随机试探,而是针对自车相对库位的初始位姿,人工设定一系列的控制指令,使车辆能够较好地泊入库位中。因为在实际过程中,观察是带有噪声的,因此可以在强化学习的训练过程中,对观察的数据加上符合传感器误差特性的噪声,在这个人工设定的控制指令的基础上加上一定的噪声便于探索更优秀的策略。这样在采集的状态行为反馈序列库中,相比采取随机探索,会有更大比例的反馈是较好的,这样可以让训练更快地收敛到优秀的策略。例如,仿真过程中,库位角点相对自车的坐标可能是不带误差的,而实际实车上,库位角点可能是通过环视相机检测得到的,而环视相机检测目标的坐标带有高斯误差,则应该在仿真训练过程中对库位角点坐标加上高斯噪声。
在对仿真训练好的深度强化学习网络模型进行迁移学习训练时,对获取的驾驶策略模型进行完善,即通过回馈函数的设置,控制所车辆与其所处环境发生交互的循环过程,调整车辆的驾驶策略信息,从而逐步训练并完善与车辆控制对应的驾驶策略模型。
步骤3:训练结束,将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的控制指令。根据车辆的控制指令对自动泊车进行控制。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于强化学习网络训练的自动泊车方法,其特征在于,该方法包括下列步骤:
1)对待泊车的车辆判断是否直接进行实车训练,若是,则执行步骤2)后进入步骤6),否则,执行步骤3)后进入步骤4)、5)、6);
2)针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行训练,获取与车辆控制对应的驾驶策略模型,将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的控制指令;
3)针对自动泊车工况建立强化学习网络模型,并对强化学习网络进行仿真训练,获取与车辆控制对应的驾驶策略模型;
4)采用迁移学习方法,将仿真训练获取的驾驶策略模型应用于实车;
5)完善驾驶策略模型,将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的控制指令;包括以下步骤:
501)车辆在当前的环境和状态下,基于驾驶策略信息执行相应的驾驶操作,确定回馈函数值;
502)通过回馈函数的设置,控制车辆与其所处环境发生交互的循环过程,调整车辆的驾驶策略信息,逐步训练并完善与车辆控制对应的驾驶策略模型;
503)将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入,输出车辆的方向盘转角控制指令、油门控制指令及刹车控制指令;
6)根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。
2.根据权利要求1所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,步骤3)具体包括以下步骤:
301)通过行为克隆训练行为网络,获取行为网络参数;
302)利用获取的行为网络参数对深度强化学习网络的行为网络进行初始化;
303)在深度强化学习的训练初期阶段进行经验序列积累,针对车辆相对库位的初始位姿人工设定控制指令,并对人工设定的控制指令叠加噪声;
304)在深度强化学习的训练过程中对输入的状态量中叠加符合传感器误差特性的噪声。
3.根据权利要求2所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,所述的深度强化学习网络包括AC网络、DDPG网络、DPG网络或PPO网络。
4.根据权利要求3所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,当采用AC网络时,将步骤301)的行为网络训练获取的参数初始化深度强化学习AC网络中的行为网络。
5.根据权利要求3所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,当采用DDPG网络时,将步骤301)的行为网络训练获取的参数初始化深度强化学习DDPG网络中的行为网络和目标行为网络。
6.根据权利要求1所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,步骤4)的具体内容为:
采用迁移学习,在仿真训练获取的驾驶策略模型的最后添加一层或替换原强化学习网络的最后一层,并在实车上继续进行适应性训练。
7.根据权利要求2所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,所述的经验序列包括当前观察环境信息、所选择的动作信息、动作回报信息和下一观察环境信息。
8.根据权利要求2所述的一种基于强化学习网络训练的自动泊车方法,其特征在于,所述的状态量包括当前环境信息、车辆的状态信息及位姿信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092800.5A CN109492763B (zh) | 2018-09-17 | 2018-09-17 | 一种基于强化学习网络训练的自动泊车方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092800.5A CN109492763B (zh) | 2018-09-17 | 2018-09-17 | 一种基于强化学习网络训练的自动泊车方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492763A CN109492763A (zh) | 2019-03-19 |
CN109492763B true CN109492763B (zh) | 2021-09-03 |
Family
ID=65690529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811092800.5A Active CN109492763B (zh) | 2018-09-17 | 2018-09-17 | 一种基于强化学习网络训练的自动泊车方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492763B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111098852B (zh) * | 2019-12-02 | 2021-03-12 | 北京交通大学 | 一种基于强化学习的泊车路径规划方法 |
CN111645673B (zh) * | 2020-06-17 | 2021-05-11 | 西南科技大学 | 一种基于深度强化学习的自动泊车方法 |
CN112508164B (zh) * | 2020-07-24 | 2023-01-10 | 北京航空航天大学 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112233458B (zh) * | 2020-09-27 | 2021-09-07 | 东南大学 | 一种面向二次事故预防动态车道与可变限速协同控制方法 |
CN112233418B (zh) * | 2020-09-27 | 2021-09-03 | 东南大学 | 智能网联混合交通流环境下二次交通事故预防控制方法 |
CN112356830B (zh) * | 2020-11-25 | 2021-11-09 | 同济大学 | 一种基于模型强化学习的智能泊车方法 |
CN112721914B (zh) * | 2020-12-23 | 2022-04-05 | 同济大学 | 带有监督机制的智能电动汽车漂移入库分段式控制方法 |
CN113420368B (zh) * | 2021-05-24 | 2024-10-01 | 江苏大学 | 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法 |
CN113253612B (zh) | 2021-06-01 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶控制方法、装置、设备及可读存储介质 |
CN115657548A (zh) * | 2022-10-25 | 2023-01-31 | 重庆邮电大学 | 一种基于模型预测控制和强化学习融合的自动泊车决策方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104153267A (zh) * | 2014-07-31 | 2014-11-19 | 同济大学 | 一种磁导航智能车的交叉路口及通行方法 |
CN105109482A (zh) * | 2015-08-24 | 2015-12-02 | 奇瑞汽车股份有限公司 | 停车入库方法及装置 |
CN106203506A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于深度学习技术的行人检测方法 |
CN107578057A (zh) * | 2017-07-14 | 2018-01-12 | 北京纵目安驰智能科技有限公司 | 基于迁移学习缓解车道线检测的树影类问题的方法及系统 |
CN108491828A (zh) * | 2018-04-20 | 2018-09-04 | 济南浪潮高新科技投资发展有限公司 | 一种基于层次的成对相似性PVAnet的停车位检测系统及方法 |
CN108536154A (zh) * | 2018-05-14 | 2018-09-14 | 重庆师范大学 | 基于生物电信号控制的低速自动驾驶智能轮椅构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025613A1 (en) * | 2012-07-20 | 2014-01-23 | Filip Ponulak | Apparatus and methods for reinforcement learning in large populations of artificial spiking neurons |
JP2019526107A (ja) * | 2016-06-21 | 2019-09-12 | エスアールアイ インターナショナルSRI International | 信用されるモデルを使用する機械学習のためのシステムおよび方法 |
-
2018
- 2018-09-17 CN CN201811092800.5A patent/CN109492763B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104153267A (zh) * | 2014-07-31 | 2014-11-19 | 同济大学 | 一种磁导航智能车的交叉路口及通行方法 |
CN105109482A (zh) * | 2015-08-24 | 2015-12-02 | 奇瑞汽车股份有限公司 | 停车入库方法及装置 |
CN106203506A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于深度学习技术的行人检测方法 |
CN107578057A (zh) * | 2017-07-14 | 2018-01-12 | 北京纵目安驰智能科技有限公司 | 基于迁移学习缓解车道线检测的树影类问题的方法及系统 |
CN108491828A (zh) * | 2018-04-20 | 2018-09-04 | 济南浪潮高新科技投资发展有限公司 | 一种基于层次的成对相似性PVAnet的停车位检测系统及方法 |
CN108536154A (zh) * | 2018-05-14 | 2018-09-14 | 重庆师范大学 | 基于生物电信号控制的低速自动驾驶智能轮椅构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109492763A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492763B (zh) | 一种基于强化学习网络训练的自动泊车方法 | |
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
CN110989576B (zh) | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 | |
CN107102644B (zh) | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
US20200372822A1 (en) | Training system for autonomous driving control policy | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN108594803B (zh) | 基于q-学习算法的路径规划方法 | |
CN112382165A (zh) | 驾驶策略生成方法、装置、介质、设备及仿真系统 | |
CN111898770B (zh) | 一种多智能体强化学习方法、电子设备及存储介质 | |
CN117609093A (zh) | 一种自动驾驶场景下交通参与者动态切入行为的生成方法 | |
CN117387635A (zh) | 一种基于深度强化学习和pid控制器的无人机导航方法 | |
CN117372536A (zh) | 激光雷达与相机标定方法、系统、设备和存储介质 | |
CN116673968A (zh) | 基于强化学习的机械臂轨迹规划要素选择方法及系统 | |
CN116890855A (zh) | 基于逆强化学习的自动驾驶选道决策方法和系统 | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
CN116127853A (zh) | 融合时序信息的基于ddpg的无人驾驶超车决策方法 | |
CN113723012B (zh) | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 | |
CN114104005B (zh) | 自动驾驶设备的决策方法、装置、设备及可读存储介质 | |
KR20190088093A (ko) | 로봇을 위한 학습 방법 | |
CN113218399B (zh) | 一种基于多智能体分层强化学习的迷宫导航方法及装置 | |
CN111413974B (zh) | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 | |
CN115081612A (zh) | 用以改进机器人策略学习的设备和方法 | |
CN109756494B (zh) | 一种负样本变换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |