CN114995468A - 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 - Google Patents

一种基于贝叶斯深度强化学习的水下机器人智能控制方法 Download PDF

Info

Publication number
CN114995468A
CN114995468A CN202210633134.1A CN202210633134A CN114995468A CN 114995468 A CN114995468 A CN 114995468A CN 202210633134 A CN202210633134 A CN 202210633134A CN 114995468 A CN114995468 A CN 114995468A
Authority
CN
China
Prior art keywords
underwater robot
network
information
reinforcement learning
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210633134.1A
Other languages
English (en)
Other versions
CN114995468B (zh
Inventor
陈然
李蕾
陈昱同
于谌言
蔡乐周
王琪皓
董锦衡
王向群
袁银龙
华亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210633134.1A priority Critical patent/CN114995468B/zh
Publication of CN114995468A publication Critical patent/CN114995468A/zh
Application granted granted Critical
Publication of CN114995468B publication Critical patent/CN114995468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/727Offshore wind turbines

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及水下机器人技术领域,尤其涉及一种基于贝叶斯深度强化学习的水下机器人智能控制方法,包括以下步骤:S1、依据水下机器人搭载的传感器系统感知水下环境信息;S2、构建水下机器人贝叶斯深度强化学习智能控制模型;S3、依据交互训练完成水下机器人智能控制模型学习;S4、水下机器人智能控制方法部署应用。本发明能够赋予水下机器人自主学习能力,能够令水下机器人自主完成运动控制,提高水下机器人在水下作业的工作效率。

Description

一种基于贝叶斯深度强化学习的水下机器人智能控制方法
技术领域
本发明涉及水下机器人技术领域,尤其涉及一种基于贝叶斯深度强化学习的水下机器人智能控制方法。
背景技术
海上风电成为新型能源的主导行业,然而海上风电桩的维修成为了一大难题。目前人工水下检修水下工程设备检测及维护,对于传统的人工来说存在安全隐患,所以对于水下机器人进行海上风电桩水下结构件检修方法有着迫切的需求,然而有些水下机器人实施中存在人工控制的局限性。
因此国外学者开展了自主控制方法研究,但是大多需要构建动力学模型,在实际操作中精确的动力学模型是很难获取的。另一方面,许多最新研究成果显示强化学习无需构建运动学模型即可实现机器人的自主运动控制,但鲜有在水下机器人循迹方面应用,为此本发明提供一种基于贝叶斯深度强化学习的水下机器人智能控制方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,能够赋予水下机器人由浅向深的学习能力,能够令水下机器人自主完成机动规避决策,提高水下机器人自主导航的精准度。
为了实现上述目的,本发明采用了如下技术方案:
一种基于贝叶斯深度强化学习的水下机器人智能控制方法,包括以下步骤:
S1、依据水下机器人搭载的传感器系统感知水下环境信息;
S2、构建水下机器人贝叶斯深度强化学习智能控制模型;
S3、依据交互训练完成水下机器人智能控制模型学习;
S4、水下机器人运动控制方法部署应用。
优选地,在步骤S1中,通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息sr和感知的外界环境信息se,其中
Figure BDA0003679507950000011
px,py,pz分别为机器人的经度、纬度和深度信息,v,
Figure BDA0003679507950000012
φ分别为机器人的速度、航向角和俯仰角信息,
Figure BDA0003679507950000021
分别为障碍物相对水下机器人的坐标信息,
Figure BDA0003679507950000022
为水流速度;s=f(se,sr)为系统整体的多模态信息,f为基于贝叶斯神经网的多模态信息融合网络,把不同模态信息通过概率化建模进行统一。
优选地,在步骤S2中,将水下机器人智能控制模型建模为贝叶斯深度强化学习模型,其中深度强化学习的状态信息为多模态信息s=(se,sr),动作 a=(a1,a2,a3,a4,a5,a6)为水下机器人6个螺旋桨的转动速度,奖赏函数
Figure BDA0003679507950000023
其中α,β为大于零的常系数,d1,d2分别为水下机器人到目标位置的距离和到障碍物的距离信息,贝叶斯深度强化学习结构包括Actor网络μ、 Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,其中Actor网络μ为贝叶斯神经网络,Critic网络Q、Actor target网络μ'和 Critictarget网络Q'为人工神经网络,网络Q、μ'和Q'应的网络权重参数分别为θQ、θμ'和θQ',网络μ的权重参数分布的均值为θμ
优选地,所述步骤S3具体包括如下步骤:
S31:通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个网络,在此基础上初始化任务环境;
S32:通过水下机器人搭载的传感系统实时采样获得水下机器人的多模态信息,包括自身的状态信息sr和环境状态信息se
S33:对Actor网络μ的权重进行随机抽样n次,依据状态信息sr和se得到水下机器人动作变量
Figure BDA0003679507950000025
其中
Figure BDA0003679507950000024
为第i次采样的权重值;
S34:机器人执行动作a,通过水下机器人搭载的传感器系统得到新的状态信息s'r、新的环境状态信息s'e,并获得对应的奖赏值r;
S35:将状态信息sr、se、a、r、s'r、s'e存储到经验池D中,并通过抽取小批次数据进行训练,更新网络权重参数θμ和θQ进行更新,在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure BDA0003679507950000031
S36:判定整局训练是否结束,如果整局训练结束,则跳转步骤S37,如果整局训练未结束,则跳转到步骤S33;
S37:判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤S32,开始新一轮训练。
优选地,在步骤S4中,将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中,启动机器人后,利用搭载的传感器系统获得多模态信息,将该信息输入到深度强化学习Actor网络中,通过多次采样获得控制指令的均值,执行命令更新多模态信息,直到任务结束。
与现有技术相比,本发明具有以下有益效果:
1、本发明能够赋予水下机器人由浅向深的学习能力,能够令机器人在复杂的水下环境中学会自主避障决策,提高水下机器人工作时的安全性和稳定性。
2、本发明可以解决传统控制算法无法应对突发环境变化的情况,利用深度强化学习算法可以提升水下机器人运动控制的灵活性。
3、本发明不仅适合解决静态环境下的避障决策问题,而且也能够应用于水流扰动和实时决策要求较高的工作环境,易于训练和部署,具有更广泛的应用场景。
4、本发明包含环境信息获取、模型构造与训练、模型部署与应用三个方面的内容,系统框架完整可靠,有益于直接部署到相应的水下机器人系统进行快速应用。
附图说明
图1为本发明的整体流程图;
图2为本发明中多模态信息的结构图;;
图3为本发明中深度强化学习模型的结构图;
图4为本发明的交互训练流程图。
具体实施方式
下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一种基于贝叶斯深度强化学习的水下机器人智能控制方法,包括以下步骤:
步骤1、依据水下机器人搭载的传感器系统感知水下环境信息;
步骤2、构建水下机器人贝叶斯深度强化学习智能控制模型;
步骤3、依据交互训练完成水下机器人智能控制模型学习;
步骤4、水下机器人运动控制方法部署应用。
参见图1至图4,本发明提供其技术方案的实施步骤如下:
步骤1:如图2所示,通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息sr和感知的外界环境信息se,其中
Figure BDA0003679507950000041
px,py,pz分别为机器人的经度、纬度和深度信息,v,
Figure BDA0003679507950000042
φ分别为机器人的速度、航向角和俯仰角信息,
Figure BDA0003679507950000043
分别为障碍物相对水下机器人的坐标信息,
Figure BDA0003679507950000044
为水流速度;s=f(se,sr)为系统整体的多模态信息,f为基于贝叶斯神经网的多模态信息融合网络,把不同模态信息通过概率化建模进行统一。
步骤2:构建水下机器人贝叶斯深度强化学习智能控制模型。如图3所示,深度强化学习的状态信息为多模态信息s=(se,sr),动作a=(a1,a2,a3,a4,a5,a6) 为水下机器人6个螺旋桨的转动速度,奖赏函数
Figure BDA0003679507950000045
其中α,β为大于零的常系数,d1,d2分别为水下机器人到目标位置的距离和到障碍物的距离信息,贝叶斯深度强化学习结构包括Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个部分,其中Actor网络μ为贝叶斯神经网络,Critic网络Q、Actor target网络μ'和Critic target网络Q'为人工神经网络,网络Q、μ'和Q'应的网络权重参数分别为θQ、θμ'和θQ',网络μ的权重参数分布的均值为θμ
本实施例中,可以解决传统控制算法无法应对突发环境变化的情况,利用深度强化学习算法可以提升水下机器人运动控制的灵活性;不仅适合解决静态环境下的避障决策问题,而且也能够应用于水流扰动和实时决策要求较高的工作环境,易于训练和部署,具有更广泛的应用场景。
步骤3:如图4所示,交互训练完成水下机器人智能控制方法学习过程为:
3-1)、通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个网络,在此基础上初始化任务环境;
3-2)、通过水下机器人搭载的传感系统实时采样获得水下机器人的多模态信息,包括自身的状态信息sr和环境状态信息se
3-3)、对Actor网络μ的权重进行随机抽样n次,依据状态信息sr和se得到水下机器人动作变量
Figure BDA0003679507950000051
其中
Figure BDA0003679507950000053
为第i次采样的权重值;
3-4)、机器人执行动作a,通过水下机器人搭载的传感器系统得到新的状态信息s'r、新的环境状态信息s'e,并获得对应的奖赏值r;
3-5)、将状态信息sr、se、a、r、s'r、s'e存储到经验池D中,并通过抽取小批次数据进行训练,更新网络权重参数θμ和θQ进行更新,在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure BDA0003679507950000052
3-6)、判定整局训练是否结束,如果整局训练结束,则跳转步骤3-7),如果整局训练未结束,则跳转到步骤3-3);
3-7)、判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤3-3),开始新一轮训练。
本实施例中,包含环境信息获取、模型构造与训练、模型部署与应用三个方面的内容,系统框架完整可靠,有益于直接部署到相应的水下机器人系统进行快速应用。
步骤4:将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中,启动机器人后,利用搭载的传感器系统获得多模态信息,将该信息输入到深度强化学习Actor网络中,通过多次采样获得控制指令的均值,执行命令更新多模态信息,直到任务结束。
本发明中披露的说明和实践,对于本技术领域的普通技术人员来说,都是易于思考和理解的,且在不脱离本发明原理的前提下,还可以做出若干改进和润饰。因此,在不偏离本发明精神的基础上所做的修改或改进,也应视为本发明的保护范围。

Claims (5)

1.一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,包括以下步骤:
S1、依据水下机器人搭载的传感器系统感知水下环境信息;
S2、构建水下机器人贝叶斯深度强化学习智能控制模型;
S3、依据交互训练完成水下机器人智能控制模型学习;
S4、水下机器人运动控制方法部署应用。
2.根据权利要求1所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,在步骤S1中,通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息sr和感知的外界环境信息se,其中
Figure FDA0003679507940000011
px,py,pz分别为机器人的经度、纬度和深度信息,v,
Figure FDA0003679507940000012
φ分别为机器人的速度、航向角和俯仰角信息,
Figure FDA0003679507940000013
Figure FDA0003679507940000014
分别为障碍物相对水下机器人的坐标信息,
Figure FDA0003679507940000015
为水流速度;s=f(se,sr)为系统整体的多模态信息,f为基于贝叶斯神经网的多模态信息融合网络,把不同模态信息通过概率化建模进行统一。
3.根据权利要求1所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,在步骤S2中,将水下机器人智能控制模型建模为贝叶斯深度强化学习模型,其中深度强化学习的状态信息为多模态信息s=(se,sr),动作a=(a1,a2,a3,a4,a5,a6)为水下机器人6个螺旋桨的转动速度,奖赏函数
Figure FDA0003679507940000016
其中α,β为大于零的常系数,d1,d2分别为水下机器人到目标位置的距离和到障碍物的距离信息,贝叶斯深度强化学习结构包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,其中Actor网络μ为贝叶斯神经网络,Critic网络Q、Actor target网络μ'和Critic target网络Q'为人工神经网络,网络Q、μ'和Q'应的网络权重参数分别为θQ、θμ'和θQ',网络μ的权重参数为高斯分布,且其分布的均值为θμ
4.根据权利要求3所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,所述步骤S3具体包括如下步骤:
S31:通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critictarget网络Q'四个网络,在此基础上初始化任务环境;
S32:通过水下机器人搭载的传感系统实时采样获得水下机器人的多模态信息,包括自身的状态信息sr和环境状态信息se
S33:对Actor网络μ的权重进行随机抽样n次,依据状态信息sr和se得到水下机器人动作变量
Figure FDA0003679507940000021
其中
Figure FDA0003679507940000022
为第i次采样的权重值;
S34:机器人执行动作a,通过水下机器人搭载的传感器系统得到新的状态信息s'r、新的环境状态信息s'e,并获得对应的奖赏值r;
S35:将状态信息sr、se、a、r、s'r、s'e存储到经验池D中,并通过抽取小批次数据进行训练,更新网络权重参数θμ和θQ进行更新,在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure FDA0003679507940000023
S36:判定整局训练是否结束,如果整局训练结束,则跳转步骤S37,如果整局训练未结束,则跳转到步骤S33;
S37:判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤S32,开始新一轮训练。
5.根据权利要求4所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,在步骤S4中,将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中,启动机器人后,利用搭载的传感器系统获得多模态信息,将该信息输入到深度强化学习Actor网络中,通过多次采样获得控制指令的均值,执行命令更新多模态信息,直到任务结束。
CN202210633134.1A 2022-06-06 2022-06-06 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 Active CN114995468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210633134.1A CN114995468B (zh) 2022-06-06 2022-06-06 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210633134.1A CN114995468B (zh) 2022-06-06 2022-06-06 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Publications (2)

Publication Number Publication Date
CN114995468A true CN114995468A (zh) 2022-09-02
CN114995468B CN114995468B (zh) 2023-03-31

Family

ID=83033246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210633134.1A Active CN114995468B (zh) 2022-06-06 2022-06-06 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Country Status (1)

Country Link
CN (1) CN114995468B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115303455A (zh) * 2022-09-16 2022-11-08 北京大学 水下仿生机器人运动控制方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
US10402723B1 (en) * 2018-09-11 2019-09-03 Cerebri AI Inc. Multi-stage machine-learning models to control path-dependent processes
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
US20200326718A1 (en) * 2019-04-09 2020-10-15 Robert Bosch Gmbh Control and monitoring of physical system based on trained bayesian neural network
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112462613A (zh) * 2020-12-08 2021-03-09 周世海 一种基于贝叶斯概率的强化学习智能体控制优化方法
CN114237268A (zh) * 2021-11-24 2022-03-25 南通因诺航空科技有限公司 一种基于深度强化学习的无人机强鲁棒姿态控制方法
CN114510078A (zh) * 2022-02-16 2022-05-17 南通大学 一种基于深度强化学习的无人机机动规避决策方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
US10402723B1 (en) * 2018-09-11 2019-09-03 Cerebri AI Inc. Multi-stage machine-learning models to control path-dependent processes
US20200326718A1 (en) * 2019-04-09 2020-10-15 Robert Bosch Gmbh Control and monitoring of physical system based on trained bayesian neural network
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112462613A (zh) * 2020-12-08 2021-03-09 周世海 一种基于贝叶斯概率的强化学习智能体控制优化方法
CN114237268A (zh) * 2021-11-24 2022-03-25 南通因诺航空科技有限公司 一种基于深度强化学习的无人机强鲁棒姿态控制方法
CN114510078A (zh) * 2022-02-16 2022-05-17 南通大学 一种基于深度强化学习的无人机机动规避决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄琰等: "AUV智能化现状与发展趋势", 《机器人》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115303455A (zh) * 2022-09-16 2022-11-08 北京大学 水下仿生机器人运动控制方法、装置、设备及存储介质
CN115303455B (zh) * 2022-09-16 2023-04-25 北京大学 水下仿生机器人运动控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114995468B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
JP6854549B2 (ja) 強化学習に基づくauv行動計画及び動作制御の方法
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN113176776B (zh) 基于深度强化学习的无人艇天气自适应避障方法
CN110597058B (zh) 一种基于增强学习的三自由度自主水下航行器控制方法
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN114995468B (zh) 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN113534668A (zh) 基于最大熵的演员-评论家框架的auv运动规划方法
CN113821045A (zh) 一种腿足机器人强化学习动作生成系统
Liu et al. Pixel-to-action policy for underwater pipeline following via deep reinforcement learning
CN114721409B (zh) 一种基于强化学习的水下航行器对接控制方法
CN117590867A (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
CN115303455B (zh) 水下仿生机器人运动控制方法、装置、设备及存储介质
Dimitrov et al. Model identification of a small fully-actuated aquatic surface vehicle using a long short-term memory neural network
CN115903820A (zh) 多无人艇追逃博弈控制方法
CN115562313A (zh) 一种用于桥墩探伤的自主式水下航行器运动控制方法
CN114415508A (zh) 一种基于分块逼近rbf滑模控制的水下机械臂控制方法
CN110703792B (zh) 基于增强学习的水下机器人姿态控制方法
Ma et al. Trajectory tracking of an underwater glider in current based on deep reinforcement learning
CN115185288B (zh) 一种基于sac算法的无人机分层飞行决策方法
CN114771783B (zh) 一种海底地层空间机器人的控制方法及系统
CN115373266B (zh) 一种绳系约束多智能体的张力预测与协同控制方法
CN114428517B (zh) 一种无人机无人艇协同平台端对端自主降落控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant