CN111813143B - 一种基于强化学习的水下滑翔机智能控制系统及方法 - Google Patents

一种基于强化学习的水下滑翔机智能控制系统及方法 Download PDF

Info

Publication number
CN111813143B
CN111813143B CN202010518047.2A CN202010518047A CN111813143B CN 111813143 B CN111813143 B CN 111813143B CN 202010518047 A CN202010518047 A CN 202010518047A CN 111813143 B CN111813143 B CN 111813143B
Authority
CN
China
Prior art keywords
value
state
neural network
deep learning
glider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010518047.2A
Other languages
English (en)
Other versions
CN111813143A (zh
Inventor
王树新
王延辉
杨绍琼
张连洪
牛文栋
马伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010518047.2A priority Critical patent/CN111813143B/zh
Publication of CN111813143A publication Critical patent/CN111813143A/zh
Application granted granted Critical
Publication of CN111813143B publication Critical patent/CN111813143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于强化学习的水下滑翔机智能控制系统,包括状态转化单元、策略单元和评价单元,状态转化单元用于将获得的目标轨迹信息与滑翔机当前位置信息进行提取和计算并形成状态数组;所述策略单元由深度学习神经网络A构成,该深度学习神经网络A的输入为状态数组,输出为动作,用于轨迹跟踪的动作为[航向角、俯仰角、回油量];评价单元由深度学习神经网络B构成,深度学习神经网络B的输入为状态数组、奖励Rtemp,输出为值函数V;依据策略单元输出的动作[航向角、俯仰角、回油量],对于航向角与俯仰角,在滑翔机下潜后采用PID控制执行。

Description

一种基于强化学习的水下滑翔机智能控制系统及方法
技术领域
本发明涉及水下航行器领域,具体涉及一种基于强化学习的水下滑翔机(UG)自主学习和自主决策的控制技术,用于实现低能耗目标条件下的轨迹跟踪控制。
背景技术
自主学习和自主决策的控制技术,借鉴人的学习和决策过程,可以使滑翔机在复杂的海洋环境中积累过往的控制经验,获取知识,不断完善自身的性能和适应性以达到设定的控制目标。近年来,随着机器学习理论的成熟和技术的应用,水下航行器领域也开展了智能控制方向的研究。强化学习是一类机器学习算法,通过与环境的不断交互,以状态和奖励作为反馈进行行为决策的学习方法,随着交互次数的提升,能够逐步改善行为,最终获得最优行为。
航行器的轨迹跟踪控制是指航行器从给定的初始状态出发,在跟踪控制器的控制下达到并跟踪空间中的一条由时间参数决定的轨迹,用于对动态目标点的跟踪。基于能耗目标的轨迹跟踪是一种多目标优化。
目前国内外学者在水下滑翔机的基于能耗的路径跟踪控制方面做了一定的工作,主要集中在通过分析滑翔机动力学与运动特性建立能耗模型进行滑翔机的行为控制和通过分析水下滑翔机的不同行为下的能耗数据得到行为与能耗的映射关系。以上控制需要人为监控,缺少自主决策的智能性。无法实现轨迹跟踪。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于强化学习的水下滑翔机智能控制系统及方法,以实现水下滑翔机在能耗约束下的轨迹跟踪控制,一方面自主实现轨迹跟踪控制,另外一方面减少能源消耗,有利于提升水下滑翔机的航程。
本发明的目的是通过以下技术方案实现的:
一种基于强化学习的水下滑翔机智能控制系统,包括状态转化单元、策略单元和评价单元,所述状态转化单元用于将获得的目标轨迹信息与滑翔机当前位置信息进行提取和计算并形成状态数组;
所述策略单元由深度学习神经网络A构成,该深度学习神经网络A的输入为状态数组,输出为动作,用于轨迹跟踪的动作为[航向角、俯仰角、回油量];当获得当前状态,策略单元输出动作,即智能决策的输出;对深度学习神经网络A的训练是采用其自身神经网络输出与评价单元输出的误差,训练过程是向着减少误差的方向更新;对训练好的深度学习神经网络A进行权值保存;
所述评价单元由深度学习神经网络B构成,深度学习神经网络B的输入为状态数组、奖励Rtemp,输出为值函数V;通过建立记忆库,采用批次学习法对深度学习神经网络B进行训练;
上述单元完成决策后,依据策略单元输出的动作[航向角、俯仰角、回油量],对于航向角与俯仰角,在滑翔机下潜后采用PID控制执行。
进一步的,状态转化单元中,依据当前状态得到当前状态的奖励Rtemp=f(Rdis,Reny),即该奖励为轨迹保持的奖励与能耗的奖励的函数;Rdis表示水下滑翔机与被跟踪目标的距离值,水下滑翔机一个剖面结束后浮出水面,通过与卫星通讯获得自身位置与目标位置,计算可得该数值;Reny表示动作的能量消耗,可通过水下滑翔机电压值及能耗公式进行计算。
进一步的,所述记忆库能够用于策略单元与评价单元的神经网络训练,考虑到海洋的时变性,记忆库中的记忆按照时间的不同赋予不同权重,距离当前时间越近的记忆权重越大,距离当前时间越远的记忆权重越小,记忆库满后用新的记忆覆盖旧的记忆。
本发明还提供一种水下滑翔机的轨迹跟踪控制方法,包括以下步骤:
(1)初始化参数:设定滑翔机的初始位置,获得目标的初始位置,同时设定学习率、学习批次、记忆库容量、神经网络权值赋随机初值;
(2)依据状态转化单元进行状态转化,形成当前状态S,采用策略单元中的深度学习神经网络A进行动作选择,输出动作A[航向角、俯仰角、回油量];
(3)滑翔机通过PID控制,执行步骤(2)输出的动作A,滑翔机下潜,执行V字剖面滑翔;
(4)在步骤(3)动作结束后,滑翔机则浮出水面,获得当前位置信息O,及目标位置信息P;
(5)状态转化单元依据步骤(4)的位置信息,进行状态转化,形成状态数组S′;由状态数组S′计算奖励值Rdis,奖励值Rdis通过与g目标的计划距离换算;动作A及状态数组S′计算能耗值Reny,即将不同的动作值产生的能耗转化为能耗值Reny;计算综合即时奖励Rtemp=f(Rdis,Reny);
(6)评价单元中通过状态数组S由深度学习神经网络B计算V值,计算价值误差;
在满足学习批次的条件下对深度学习神经网络B采用记忆库中的记忆进行训练;
(7)依据评价单元的价值误差,对策略单元的深度学习神经网络A进行训练;
(8)将S′状态设置为当前状态;
(9)是否结束轨迹跟踪的任务,如果“是”,则转入步骤(2),“否”则结束循环,输出轨迹曲线。
进一步的,步骤(6)中的计算公式如下:
Figure BDA0002530869030000031
Figure BDA0002530869030000032
Figure BDA0002530869030000033
Figure BDA0002530869030000034
为V值在神经网络参数为θ下的梯度,π(a|s′)为在s′状态下选择的动作为a的一个策略,Q(s′,a)为a状态下获得的s′状态的行为动作值Q;yi,t为在t时刻的第i个V的现实值,r(si,t,ai,t)为在t时刻的第i个行为ai,t及获得的t时刻的第i个状态si,t下得到的奖励值Rtemp
Figure BDA0002530869030000035
为在策略π下的任意策略φ中的t+1时刻的第i个状态si下的V估计值;L为价值误差,是一个均方根误差,yi为第i个V现实值,
Figure BDA0002530869030000036
为在策略π下的任意策略φ中的第i个状态si下的V估计值。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明系统有自主学习和自主决策能力:针对海洋的非结构化特性,水下滑翔机在水下运动过程中,获得状态与奖励的反馈,并以此汇集成记忆库,再通过强化学习算法对策略与评价的深度学习神经网络进行训练,获得网络权值,由此水下滑翔机在动作选择时可以选择奖励值最大的动作。因此具有自主学习和自主决策能力,即可以通过以往经验训练深度学习神经网络,并可选择奖励值最大的动作行为。
2.本发明方法可实现复杂海洋环境下低能耗约束下的轨迹跟踪:该功能的实现重点在于奖励值函数的设定。该奖励值的设定将以实际能耗与轨迹跟踪的速度偏差、位移偏差作为奖励值函数的变量。这时水下滑翔机在复杂的海洋环境中能够依据过往的运行情况,对策略与评价深度学习神经网络的训练,可以获得动作与动态奖励值的映射关系。由此通过策略与评价网络可以获得最优轨迹跟踪的行为动作。
附图说明
图1是轨迹跟踪原理示意图。
图2是基于强化学习的目标轨迹跟踪原理框图。
图3是水下滑翔机系统内部构成示意图。
图4是基于策略与评价的强化学习方法框架结构图。
图5是基于策略与评价的强化学习控制流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,g目标运动速度具有时变性,本发明的目的是实现滑翔机对g目标的轨迹跟踪,即达到在t时刻与g的距离为(xd,yd)∈[(dx1,dx2),(dy1,dy2)],且能耗最优,前提假设为UG的最大速度>g目标的最大速度,UG的最小速度<g目标的最小速度。
本实施例提供一种基于强化学习的水下滑翔机智能控制系统及控制方法,该控制方法的基本原理:如图2所示,UG主控获得在海洋环境影响下的g目标的轨迹及UG轨迹信息,转入智能决策计算最佳动作,执行该动作,UG获得新状态及奖励,依据状态、状态转移、动作、奖励,UG进行自我优化。
该控制方法设计在UG主控内部,属于智能决策部分。图3为滑翔机系统内部组成,由通讯模块、主控模块、导航模块、传感器系统、执行机构构成,各模块间实现信息和指令的流动。其中主控模块分为智能决策单元和控制器单元两部分,智能决策单元又分为状态转化单元、评价单元和策略单元。
主控模块中智能决策单元的各单元相互协作如图4所示,具体如下:
状态转化单元:将获得的g目标轨迹信息与UG的当前位置信息进行信息提取和计算,形成状态数组。依据当前状态得到当前状态的奖励Rtemp=f(Rdis,Reny),即该奖励为轨迹保持的奖励与能耗的奖励的函数。Rdis表示水下滑翔机与被跟踪目标的距离值,水下滑翔机一个剖面结束后浮出水面,通过与卫星通讯获得自身位置与目标位置,计算可得该数值。Reny表示动作的能量消耗,可通过水下滑翔机电压值及能耗公式进行计算。
策略单元:由独立深度学习神经网络A构成,该网络A输入为状态数组,输出为动作,用于轨迹跟踪的动作为[航向角、俯仰角、回油量]。当获得当前状态,此单元输出动作,即智能决策的输出。对神经网络的训练是采用其自身网络输出与评价单元输出的误差,训练过程是向着减少误差的方向更新。对训练好的神经网络进行权值保存。
评价单元:由独立的深度学习神经网络B构成,该网络B输入为状态、Rtemp,输出为值函数V。建立记忆库,考虑到海洋的时变性,将记忆库中的记忆按照时间的不同赋予不同权重,越近的记忆权重越大,越远的记忆,权重越小,记忆库满后用新记忆覆盖旧记忆,采用批次学习法对神经网络进行训练。
智能决策后采用PID控制执行:依据智能决策输出的动作[航向角、俯仰角、回油量],对于航向角与俯仰角,在UG下潜后采用PID控制。
本发明方法的主旨如下:首先建立水下滑翔机基于策略与评价的强化学习算法,其次建立仿真动态环境与水下滑翔机动力学模型(主要用于训练深度神经网络并验证算法的有效性),接着水下滑翔机与该动态环境进行交互,汇集成记忆库并不断训练神经网络,通过轨迹线的输出验证算法的有效性。最后对水下滑翔机进行海洋测试,通过与真实的海洋环境的交互,获得真实的状态与奖励,进一步训练网络,获得最优控制值。
具体的控制步骤如图5所示,具体如下:
6.1初始化状态、学习率等参数:设定UG的初始位置,获得目标的初始位置,设定学习率、学习批次、记忆库容量、神经网络权值赋随机初值。
6.2依据状态转化单元进行状态转化,形成当前状态S,采用策略单元中的神经网络进行动作选择,输出动作A[航向角、俯仰角、回油量]。
6.3UG通过PID控制,执行6.2输出的动作A,UG下潜,执行V字剖面滑翔。
6.4在步骤6.3动作结束后,UG则浮出水面,获得当前位置信息O,及目标位置信息P。
6.5状态转化单元依据6.4的位置信息,进行状态转化,形成状态数组S′。由状态数组S′计算奖励值Rdis,该值通过与g目标的计划距离换算。由A及S′计算能耗cost值Reny,即将不同的动作值产生的能耗转化为能耗cost值。计算综合即时奖励Rtemp=f(Rdis,Reny)。
6.6评价单元,通过S′值由评价单元的深度学习神经网络B计算V值,计算价值误差。在满足学习批次的条件下对该神经网络B采用记忆库中的记忆进行训练。
6.7依据评价单元的值误差,对策略单元的深度学习神经网络A进行训练。
6.8将S′状态设置为当前状态。
6.9是否结束轨迹跟踪的任务,如果“是”,则转入6.2步骤,“否”则结束循环,输出轨迹曲线。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (3)

1.一种基于强化学习的水下滑翔机智能控制系统,其特征在于,包括状态转化单元、策略单元和评价单元,所述状态转化单元用于将获得的目标轨迹信息与滑翔机当前位置信息进行提取和计算并形成状态数组;
所述策略单元由深度学习神经网络A构成,该深度学习神经网络A的输入为状态数组,输出为动作,用于轨迹跟踪的动作为[航向角、俯仰角、回油量];当获得当前状态,策略单元输出动作,即智能决策的输出;对深度学习神经网络A的训练是采用其自身神经网络输出与评价单元输出的误差,训练过程是向着减少误差的方向更新;对训练好的深度学习神经网络A进行权值保存;
所述评价单元由深度学习神经网络B构成,深度学习神经网络B的输入为状态数组、奖励Rtemp,输出为值函数V;通过建立记忆库,采用批次学习法对深度学习神经网络B进行训练;
上述单元完成决策后,依据策略单元输出的动作[航向角、俯仰角、回油量],对于航向角与俯仰角,在滑翔机下潜后采用PID控制执行;
状态转化单元中,依据当前状态得到当前状态的奖励Rtemp=f(Rdis,Reny),即该奖励为轨迹保持的奖励与能耗的奖励的函数;Rdis表示水下滑翔机与被跟踪目标的距离值,水下滑翔机一个剖面结束后浮出水面,通过与卫星通讯获得自身位置与目标位置,计算可得Rdis;Reny表示动作的能量消耗,可通过水下滑翔机电压值及能耗公式进行计算。
2.根据权利要求1所述一种基于强化学习的水下滑翔机智能控制系统,其特征在于,所述记忆库能够用于策略单元与评价单元的神经网络训练,考虑到海洋的时变性,记忆库中的记忆按照时间的不同赋予不同权重,距离当前时间越近的记忆权重越大,距离当前时间越远的记忆权重越小,记忆库满后用新的记忆覆盖旧的记忆。
3.一种水下滑翔机的轨迹跟踪控制方法,基于权利要求1所述的水下滑翔机智能控制系统,其特征在于,包括以下步骤:
(1)初始化参数:设定滑翔机的初始位置,获得目标的初始位置,同时设定学习率、学习批次、记忆库容量、神经网络权值赋随机初值;
(2)依据状态转化单元进行状态转化,形成当前状态S,采用策略单元中的深度学习神经网络A进行动作选择,输出动作A[航向角、俯仰角、回油量];
(3)滑翔机通过PID控制,执行步骤(2)输出的动作A,滑翔机下潜,执行V字剖面滑翔;
(4)在步骤(3)动作结束后,滑翔机则浮出水面,获得当前位置信息O,及目标位置信息P;
(5)状态转化单元依据步骤(4)的位置信息,进行状态转化,形成状态数组S′;由状态数组S′计算奖励值Rdis,奖励值Rdis通过与g目标的计划距离换算;动作A及状态数组S′计算能耗值Reny,即将不同的动作值产生的能耗转化为能耗值Reny;计算综合即时奖励Rtemp=f(Rdis,Reny);
(6)评价单元中通过状态数组S由深度学习神经网络B计算V值,计算价值误差;在满足学习批次的条件下对深度学习神经网络B采用记忆库中的记忆进行训练;计算公式如下:
Figure FDA0003516475810000021
Figure FDA0003516475810000022
Figure FDA0003516475810000023
Figure FDA0003516475810000024
为V值在神经网络参数为θ下的梯度,π(a|s′)为在s′状态下选择的动作为a的一个策略,Q(s′,a)为a状态下获得的s′状态的行为动作值Q;yi,t为在t时刻的第i个V的现实值,r(si,t,ai,t)为在t时刻的第i个行为ai,t及获得的t时刻的第i个状态si,t下得到的奖励值Rtemp
Figure FDA0003516475810000025
为在策略π下的任意策略φ中的t+1时刻的第i个状态si下的V估计值;L为价值误差,是一个均方根误差,yi为第i个V现实值,
Figure FDA0003516475810000026
为在策略π下的任意策略φ中的第i个状态si下的V估计值;
(7)依据评价单元的价值误差,对策略单元的深度学习神经网络A进行训练;
(8)将S′状态设置为当前状态;
(9)是否结束轨迹跟踪的任务,如果“是”,则转入步骤(2),“否”则结束循环,输出轨迹曲线。
CN202010518047.2A 2020-06-09 2020-06-09 一种基于强化学习的水下滑翔机智能控制系统及方法 Active CN111813143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010518047.2A CN111813143B (zh) 2020-06-09 2020-06-09 一种基于强化学习的水下滑翔机智能控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010518047.2A CN111813143B (zh) 2020-06-09 2020-06-09 一种基于强化学习的水下滑翔机智能控制系统及方法

Publications (2)

Publication Number Publication Date
CN111813143A CN111813143A (zh) 2020-10-23
CN111813143B true CN111813143B (zh) 2022-04-19

Family

ID=72846011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010518047.2A Active CN111813143B (zh) 2020-06-09 2020-06-09 一种基于强化学习的水下滑翔机智能控制系统及方法

Country Status (1)

Country Link
CN (1) CN111813143B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698572B (zh) * 2020-12-22 2022-08-16 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN113879495B (zh) * 2021-10-26 2024-04-19 西北工业大学 一种基于海流预测的水下滑翔机动态运动规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质
CN111240345A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质
CN111240345A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AUV path following controlled by modified Deep Deterministic Policy Gradient;Yushan Sun等;《Ocean Engineering》;20200608;2. Path following control system;3.AUV control strategy with OSAM-DDPG;图4 *
强化学习:Q-learning 与DQN(Deep Q Network);Leon_winter;《https://blog.csdn.net/Leon_winter/article/details/106456683》;20200605;全文 *

Also Published As

Publication number Publication date
CN111813143A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
Zhang et al. Ship motion attitude prediction based on an adaptive dynamic particle swarm optimization algorithm and bidirectional LSTM neural network
CN111966118B (zh) 一种rov推力分配与基于强化学习的运动控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN111813143B (zh) 一种基于强化学习的水下滑翔机智能控制系统及方法
CN110909859A (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN106325071A (zh) 一种基于事件驱动的广义预测自适应补给船航向控制方法
CN103729695A (zh) 基于粒子群和bp神经网络的短期电力负荷预测方法
CN113741449B (zh) 一种面向海空协同观测任务的多智能体控制方法
CN113359448A (zh) 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法
CN113052372A (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN113821035A (zh) 无人船轨迹追踪控制方法和装置
CN116933619A (zh) 基于强化学习的数字孪生配网故障场景生成方法及系统
Yan et al. Real-world learning control for autonomous exploration of a biomimetic robotic shark
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
CN109932909A (zh) 火电机组脱硫系统的大系统耦合多变量优化匹配控制方法
Yiming et al. Feedforward feedback control based on DQN
CN109901622A (zh) 一种基于机理模型的自主水下机器人预测s面控制方法
CN109828463A (zh) 一种海流干扰自适应波浪滑翔器艏向控制方法
Dong et al. Gliding motion optimization for a biomimetic gliding robotic fish
Qiao et al. Application of reinforcement learning based on neural network to dynamic obstacle avoidance
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
CN115903820A (zh) 多无人艇追逃博弈控制方法
Ma et al. Path tracking control of hybrid-driven robotic fish based on deep reinforcement learning
Cao et al. A realtime Q-Learning method for unmanned surface vehicle target tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant