CN111562740B - 基于利用梯度的多目标强化学习算法的自动控制方法 - Google Patents
基于利用梯度的多目标强化学习算法的自动控制方法 Download PDFInfo
- Publication number
- CN111562740B CN111562740B CN202010371477.6A CN202010371477A CN111562740B CN 111562740 B CN111562740 B CN 111562740B CN 202010371477 A CN202010371477 A CN 202010371477A CN 111562740 B CN111562740 B CN 111562740B
- Authority
- CN
- China
- Prior art keywords
- function
- evaluated
- actor
- gradient
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002787 reinforcement Effects 0.000 title claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 226
- 238000011217 control strategy Methods 0.000 claims abstract description 13
- 150000001875 compounds Chemical class 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 19
- 238000009795 derivation Methods 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000005265 energy consumption Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及自动控制技术领域,特别涉及一种基于利用梯度的多目标强化学习算法的自动控制方法。本发明利用强化学习算法中已知的梯度信息更新函数参数,相比于单策略多目标强化学习算法,本算法能够求得帕雷托前沿解集,可以在实际控制时根据不同需要选择不同的控制策略;相比于多策略多目标强化学习算法中的凸包法,本算法不依赖于目标回报的线性加权,能够获得前沿解中非凸区域的控制策略;相比于多策略多目标强化学习算法中的多参数法,本算法能够一次性求解所有帕雷托前沿解,算法效率较高;相比于多策略多目标强化学习算法中的结合多目标优化算法的方法,本算法利用了梯度信息,加快了算法的收敛速度。
Description
技术领域
本发明涉及自动控制技术领域,特别涉及一种基于利用梯度的多目标强化学习算法的自动控制方法。
背景技术
为了解决机器人自动控制这一连续时域决策问题,强化学习是一个有效的工具,而在实际过程中,很多自动控制问题是多目标问题,若仅依靠将多目标转化为单目标的方法,用单目标强化学习算法求解,则难以发现目标和状态之间的正确映射关系、学习到正确的值函数和策略,因此需要采用多目标强化学习。目前多目标强化学习主要分为两大类,一类是单策略方法,另一类是多策略方法。单策略方法仅能获得单一策略,不能获得多个帕雷托前沿策略;而多策略方法可以求得帕雷托前沿策略集,使用时可以根据需求调整策略。多策略方法又分为如下几类:凸包法、变参数法和结合多目标优化算法的强化学习算法,其中,凸包法由于利用了对梯度的加权求和,从而难以获得非凸区域的策略;变参数法则是重复执行但策略方法,算法效率较低;结合多目标优化算法的强化学习算法则未能利用强化学习算法中已知的梯度信息,收敛速度较慢。
发明内容
针对上述技术问题,本发明的目的是提供一种基于利用梯度的多目标强化学习算法的自动控制方法,其目的在于获得帕雷托前沿控制策略集的同时,具有较快的收敛速度。
为了实现上述目的,本发明提供了如下技术方案:
一种基于利用梯度的多目标强化学习算法的自动控制方法,包括如下步骤:
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报(确定即时回报和输入之间的函数关系);
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M;
初始化近似函数参数,近似函数参数包括N个待评估Critic函数的参数集合学习率lrce;N个待评估Actor函数的参数集合学习率lrae;N个目标Critic函数的参数集合N个目标Actor函数的参数集合其中i=1,2,…,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集梯度更新因子α,目标函数更新因子β;
步骤3、与环境交互
步骤4、存储信息
步骤5、更新待评估Critic函数参数
式中,为更新后的待评估Critic函数中全体参数的集合,lrce为待评估Critic函数的学习率,为求导符号,为待评估Critic函数的损失函数,为待评估Critic函数,为待评估Critic函数的参数;
步骤6、计算基于最优Q值的待评估Actor函数梯度
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
式中,为求导符号,为待评估Actor函数,为待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和;该式表示待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和对待评估Actor函数的梯度;
步骤8、更新待评估Actor函数参数
否则,
步骤9、判断解的帕雷托占优关系
步骤10、生成新的解
步骤11、更新目标函数参数
式中,为更新后的目标Critic函数的参数,β为目标函数更新因子,为更新后的待评估Critic函数的参数,为目标Critic函数的参数,为更新后的目标Actor函数的参数,为更新后的待评估Actor函数的参数,为目标Actor函数的参数;
步骤12、若解集S中无解被删去且更新后的函数参数与更新前的函数参数相同,则停止循环,否则回到步骤3;算法停止循环后,得到的解集S中,N个待评估Actor函数即为N个帕雷托前沿自动控制策略,根据实际需求从中选择一个进行目标场景的自动控制。
与现有技术相比,本发明的有益效果在于:
本发明利用强化学习算法中已知的梯度信息更新函数参数,相比于单策略多目标强化学习算法,本算法能够求得帕雷托前沿解集,可以在实际控制时根据不同需要选择不同的控制策略;相比于多策略多目标强化学习算法中的凸包法,本算法不依赖于目标回报的线性加权,能够获得前沿解中非凸区域的控制策略;相比于多策略多目标强化学习算法中的多参数法,本算法能够一次性求解所有帕雷托前沿解,算法效率较高;相比于多策略多目标强化学习算法中的结合多目标优化算法的方法,本算法利用了梯度信息,加快了算法的收敛速度。
附图说明
图1为本发明基于利用梯度的多目标强化学习算法的自动控制方法的流程框图。
具体实施方式
如图1所示,本发明的一种基于利用梯度的多目标强化学习算法的自动控制方法,该方法包括如下步骤:
(说明:本发明中字体加粗符号表示向量)
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报。
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M。
初始化近似函数参数,近似函数参数包括N个待评估Critic函数的参数集合学习率lrce;N个待评估Actor函数的参数集合学习率lrae;N个目标Critic函数的参数集合N个目标Actor函数的参数集合其中i=1,2,…,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集梯度更新因子α,目标函数更新因子β。
步骤3、与环境交互
步骤4、存储信息
步骤5、更新待评估Critic函数参数
式中,为更新后的待评估Critic函数中全体参数的集合,lrce为待评估Critic函数的学习率,为求导符号,为待评估Critic函数的损失函数,为待评估Critic函数,为待评估Critic函数的参数。
步骤6、计算基于最优Q值的待评估Actor函数梯度
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
式中,为求导符号,为待评估Actor函数,为待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和。该式表示待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和对待评估Actor函数的梯度。
步骤8、更新待评估Actor函数参数
否则,
步骤9、判断解的帕雷托占优关系
步骤10、生成新的解
步骤11、更新目标函数参数
式中,为更新后的目标Critic函数的参数,β为目标函数更新因子,为更新后的待评估Critic函数的参数,为目标Critic函数的参数,为更新后的目标Actor函数的参数,为更新后的待评估Actor函数的参数,为目标Actor函数的参数。
步骤12、若解集S中无解被删去且更新后的函数参数与更新前的函数参数相同,则停止循环,否则回到步骤3;算法停止循环后,得到的解集S中,N个待评估Actor函数即为N个帕雷托前沿自动控制策略,可根据实际需求从中选择一个进行目标场景的自动控制。
实施例
本发明的一种基于利用梯度多目标强化学习方法的自动控制方法,可应用于无人车、机器人、无人机等的自动控制。在实施例中,以自动驾驶中的端到端自适应巡航应用技术为例,采用深度神经网络模型和强化学习模型相结合的方法,进一步对本发明进行进一步说明。
该方法的实施包括如下步骤:
步骤1、构建多目标强化学习问题
由于目标为通过端到端自动控制方法实现车辆的自适应巡航功能,因此在本实施例中,确定算法的输入(即状态)为车载摄像头拍摄的前方道路图像和车速,算法的输出(即动作)为油门踏板开度和刹车踏板开度,需要考虑的目标包括车辆是否能和前车保持合理的距离以及能耗尽量降低。在不同的问题中可以根据实际需要自行定义输入、输出和目标。
步骤2、初始化算法参数
以前方道路图像和车速作为算法输入,油门踏板开度和刹车踏板开度为输出。
初始化多目标强化学习参数,包括折扣因子γ,最大幕数Nepi,最大步数Nstep,待求解集中解的个数为N,N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M。
采用神经网络对Actor函数和Critic函数进行拟合,故初始化神经网络参数,包括N个待评估Critic网络的参数集合学习率lrce;N个待评估Actor网络的参数集合学习率lrae,待评估Actor网络即为车辆的控制策略,其以前方道路图像和车速为输入,以油门踏板开度和刹车踏板开度为输出;N个目标Critic网络的参数集合N个目标Actor网络的参数集合其中i=1,2,…,N,待评估Critic网络和目标Critic网络具有相同的网络结构;待评估Actor网络和目标Actor网络具有相同的网络结构,待评估Critic网络和目标Critic网络的输出均为一M维向量,为当前状态对应的所有目标的Q值;解集梯度更新因子α,目标网络更新因子β。
步骤3、与环境交互
在t时刻,解集S中的待评估Actor网络根据从第i个环境获取的当前前方道路图像以及车速,构成状态计算油门踏板开度和刹车踏板开度构成当前动作随后从环境获取即时回报和下一时刻的图像与速度即时回报为二维向量,分别描述车辆的跟踪性能和能耗,若跟踪误差越小、瞬时能耗越低,则回报越高。
步骤4、存储信息
将步骤3获得的四元组即当前前方道路图像和车速、当前油门踏板开度和刹车踏板开度、考虑跟踪性能和能耗的即时回报以及下一时刻前方道路图像和车速,存储至经验回放池D(i),若经验回放池D(i)中的数据数大于ND,则删去最早的数据,使得经验回放池D(i)中的数据数等于最大数据数ND。
步骤5、更新待评估Critic网络参数;
步骤6、计算基于最优Q值的待评估Actor网络梯度
步骤7、计算基于Q值最大多样性距离的待评估Actor网络梯度
步骤8、更新待评估Actor网络参数
否则,
步骤9、判断解的帕雷托占优关系
步骤10、生成新的解;
步骤11、更新目标网络参数;
12.判断训练是否终止。
Claims (1)
1.一种基于利用梯度的多目标强化学习算法的自动控制方法,其特征在于:该方法包括如下步骤:
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报;
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,...,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M;
初始化近似函数参数,近似函数参数包括N个待评估Critic函数的参数集合学习率lrce;N个待评估Actor函数的参数集合学习率lrae;N个目标Critic函数的参数集合N个目标Actor函数的参数集合其中i=1,2,...,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集 梯度更新因子α,目标函数更新因子β;
步骤3、与环境交互
步骤4、存储信息
步骤5、更新待评估Critic函数参数
式中,为更新后的待评估Critic函数中全体参数的集合,lrce为待评估Critic函数的学习率,为求导符号,为待评估Critic函数的损失函数,为待评估Critic函数,为待评估Critic函数的参数;
步骤6、计算基于最优Q值的待评估Actor函数梯度
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
式中,为求导符号,为待评估Actor函数,为待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和;表示待评估Critic函数的输出到其他待评估Critic函数的输出的距离总和对待评估Actor函数的梯度;
步骤8、更新待评估Actor函数参数
否则,
步骤9、判断解的帕雷托占优关系
步骤10、生成新的解
步骤11、更新目标函数参数
式中,为更新后的目标Critic函数的参数,β为目标函数更新因子,为更新后的待评估Critic函数的参数,为目标Critic函数的参数,为更新后的目标Actor函数的参数,为更新后的待评估Actor函数的参数,为目标Actor函数的参数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371477.6A CN111562740B (zh) | 2020-05-06 | 2020-05-06 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371477.6A CN111562740B (zh) | 2020-05-06 | 2020-05-06 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111562740A CN111562740A (zh) | 2020-08-21 |
CN111562740B true CN111562740B (zh) | 2021-04-23 |
Family
ID=72074486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010371477.6A Active CN111562740B (zh) | 2020-05-06 | 2020-05-06 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111562740B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970881B (zh) * | 2022-04-27 | 2024-08-20 | 清华大学 | 一种基于凸包约束的离线强化学习方法和装置 |
CN116661294B (zh) * | 2023-08-02 | 2023-11-07 | 南京航空航天大学 | 基于强化学习的阀控液压缸分数阶控制方法及控制系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN109143870A (zh) * | 2018-10-23 | 2019-01-04 | 宁波溪棠信息科技有限公司 | 一种多目标任务的控制方法 |
CN109204308A (zh) * | 2017-07-03 | 2019-01-15 | 上海汽车集团股份有限公司 | 车道保持算法的确定方法、车道保持的控制方法及系统 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN110147101A (zh) * | 2019-05-13 | 2019-08-20 | 中山大学 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
CN110874578A (zh) * | 2019-11-15 | 2020-03-10 | 北京航空航天大学青岛研究院 | 一种基于强化学习的无人机视角车辆识别追踪方法 |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11106211B2 (en) * | 2018-04-02 | 2021-08-31 | Sony Group Corporation | Vision-based sample-efficient reinforcement learning framework for autonomous driving |
US11181921B2 (en) * | 2018-09-14 | 2021-11-23 | Huawei Technologies Co., Ltd. | System and method for hierarchical planning in autonomous vehicles |
US11568207B2 (en) * | 2018-09-27 | 2023-01-31 | Deepmind Technologies Limited | Learning observation representations by predicting the future in latent space |
-
2020
- 2020-05-06 CN CN202010371477.6A patent/CN111562740B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109204308A (zh) * | 2017-07-03 | 2019-01-15 | 上海汽车集团股份有限公司 | 车道保持算法的确定方法、车道保持的控制方法及系统 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN109143870A (zh) * | 2018-10-23 | 2019-01-04 | 宁波溪棠信息科技有限公司 | 一种多目标任务的控制方法 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN110147101A (zh) * | 2019-05-13 | 2019-08-20 | 中山大学 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
CN110874578A (zh) * | 2019-11-15 | 2020-03-10 | 北京航空航天大学青岛研究院 | 一种基于强化学习的无人机视角车辆识别追踪方法 |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
Non-Patent Citations (3)
Title |
---|
A Gradient-Based Reinforcement Learning Algorithm for Multiple Cooperative Agents;ZHEN ZHANG;《IEEE ACCESS》;20181218;1-13 * |
Combining Deep Reinforcement Learning and Safety Based Control for Autonomous Driving;Xi Xiong;《ResearchGate》;20161231;1-10 * |
极限工况下自动驾驶车辆的轨迹规划与运动控制;张放;《中国博士学位论文全文数据库工程科技Ⅱ辑》;20200415(第4期);C035-4 * |
Also Published As
Publication number | Publication date |
---|---|
CN111562740A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
CN111413966B (zh) | 一种递进式模型预测无人驾驶规划跟踪协同控制方法 | |
CN109992000B (zh) | 一种基于分层强化学习的多无人机路径协同规划方法及装置 | |
CN110874578B (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
CN111667513A (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN108803321A (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN111562740B (zh) | 基于利用梯度的多目标强化学习算法的自动控制方法 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
Kuutti et al. | End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context | |
CN113110546B (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN111882047A (zh) | 一种基于强化学习与线性规划的快速空管防冲突方法 | |
Xia et al. | Research on collision avoidance algorithm of unmanned surface vehicle based on deep reinforcement learning | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
Li et al. | Research on multi-UAV task decision-making based on improved MADDPG algorithm and transfer learning | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN116301011A (zh) | 一种多智能体高效编队避障方法 | |
Lil et al. | Autonomous exploration and mapping for mobile robots via cumulative curriculum reinforcement learning | |
CN110456790B (zh) | 基于自适应权重的智能网联电动汽车队列优化控制方法 | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 | |
CN117055601A (zh) | 一种无人机送餐路径规划方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |