CN109240280A - 基于强化学习的锚泊辅助动力定位系统控制方法 - Google Patents

基于强化学习的锚泊辅助动力定位系统控制方法 Download PDF

Info

Publication number
CN109240280A
CN109240280A CN201810729080.2A CN201810729080A CN109240280A CN 109240280 A CN109240280 A CN 109240280A CN 201810729080 A CN201810729080 A CN 201810729080A CN 109240280 A CN109240280 A CN 109240280A
Authority
CN
China
Prior art keywords
state
anchor point
intensified learning
marine structure
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810729080.2A
Other languages
English (en)
Other versions
CN109240280B (zh
Inventor
王磊
李博
余尚禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810729080.2A priority Critical patent/CN109240280B/zh
Publication of CN109240280A publication Critical patent/CN109240280A/zh
Application granted granted Critical
Publication of CN109240280B publication Critical patent/CN109240280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法,包括:首先构建最优点选择问题的马尔科夫决策模型,构建状态空间与行为空间;采用神经网络构建强化学习模型Q函数,控制系统基于实时测量的锚泊辅助动力定位系统当前状态,采用ε贪心算法选择行为,观察在选择行为a后的系统状态s’与反馈奖励;将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库,并训练神经网络;通过不断重复上述过程,锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略,得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

Description

基于强化学习的锚泊辅助动力定位系统控制方法
技术领域
本发明涉及一种海洋结构物的锚泊与动力定位联合使用的控制方法,特别是一种基于强化学习的锚泊辅助动力定位系统控制方法。
背景技术
随着人类对海洋资源的开发规模的逐步扩大,在恶劣海况中作业的海洋结构物定位系统的发展,已成为海洋工程高技术装备研发中的重要课题之一。除了传统上使用锚泊系统的定位方法,越来越多的海洋平台和工程船开始装备动力定位系统,用以在复杂的海洋环境中完成较为精确的艏向和位置保持控制,从而能够安全高效地开展各类定点的海洋工程作业。锚泊系统与动力定位系统的联合使用方法也已应用于半潜式海洋平台和浮式生产储油卸油装置的定位控制中,此种方法又被称为锚泊辅助动力定位。与单纯的锚泊定位方式相比,锚泊辅助动力定位系统中的推进器可以为海洋结构物的定位提供额外的阻尼力或回复力,不仅能够减小海洋结构物的运动幅度以及锚链的疲劳和磨损,还可以在锚泊系统部分失效时,避免海洋结构物的严重失位以及锚泊系统的进一步破坏。与普通的动力定位系统相比,锚泊辅助动力定位系统中的锚链可以用来抵抗大部分的海洋环境载荷,而推进器仅需要发挥提供额外阻尼力的作用,这可以显著降低推进系统的功耗,提高海洋结构为定位系统的经济性。此外,锚泊系统与动力定位系统的联合使用,还能够提高定位系统的可靠性与安全性,并大幅增强海洋结构物抵抗极端海况的能力。
锚泊辅助动力定位系统主要包括手动控制、阻尼控制、定位点控制和跟踪控制等四种模式。在阻尼控制模式下,推进系统只为海洋结构物的定位提供额外的阻尼力,以减小它的运动幅度,而海洋结构物的平均位置则由锚泊系统和海洋环境载荷决定。在定位点模式下,控制系统将依据定位点位置计算所需的控制力和力矩,目的是将海洋结构物的位置保持在定位点处。锚泊辅助动力定位系统的定位点选择对于系统的定位性能和功耗有着直接的影响。在一般海况下,定位点通常选择在锚泊系统在外载荷作用下的平均位置处,以使其抵抗大部分的平均环境载荷,从而将锚链的功用最大化,降低推进系统的功耗。如果定位点的选择不当,将出现无法充分发挥锚链的作用力,或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生,控制系统需要能够自主选择最优的定位点,以充分发挥锚泊辅助动力定位系统的定位性能,并降低推进系统的功耗。
目前,锚泊辅助动力定位系统定位点的选择仍主要依赖操作人员的手动选择,定位点手动选择的质量依赖操作人员的经验,难以做到实时的最优选择,而部分文献提出的基于海洋结构物低频运动轨迹的定位点选择方法,会造成定位点在短时间内的持续变化,不利用控制系统的稳定,而且同样无法保证定位点选择的最优性,增加推进器的功率消耗,使得运营成本居高不下。
发明内容
本发明针对锚泊辅助动力定位系统在定位点控制模式下选择使得推进器的功率消耗最低的定位点的技术问题,提出一种基于强化学习的锚泊辅助动力系统控制方法,使控制计算机能够根据锚泊辅助动力定位系统的运行状态,自主计算最优的定位点,以避免锚泊系统与推进器在定位作用中的相互干扰,充分发挥锚泊系统在抵抗平均环境载荷中的主要作用,降低推进器的功率消耗。
为了实现上述目的,本发明技术解决方案包括以下步骤:
步骤1,在海洋结构物的推进器内布设测量推进器功率消耗的传感器,它能实时采集海洋结构物推进器的功率消耗P(t),计算长度为T的每个时间步内的平均功率消耗
步骤2,构建锚泊辅助动力定位系统在定位点控制模式下,基于马尔科夫决策模型的强化学习模型:
(1)确定状态空间S,在大地坐标系下构建极坐标,状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。
(2)定义行为空间A={0,Δρ,-Δρ},Δρ为每次改变ρ的距离步长。
(3)定义奖励函数r(s,a),其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为。在强化学习过程中,利用在推进器内布设功率传感器,实时采集的海洋结构物推进系统的功率消耗P(t),建立数据库并计算长度为T的每个时间步内的平均功率消耗定义n为超参数。通过最大化奖励函数获得推进系统功率消耗最小时所在的定位点,从而寻找到最优的定位点。
步骤3,利用神经网络拟合强化学习模型Q函数:
其中,rt为每个时间段T后所得的奖励函数,γ为衰减因子。状态s为神经网络的输入,Q(s,a;θ)表示神经网络的输出,其中θ为神经网络中的权重。
步骤4,在定位点定义域(0,ρs],随机选取初始定位点ρ0,交给控制计算机进行定位点控制,开始强化学习过程。
步骤5,在每一时间步中,基于海洋结构物的当前状态st及ε贪心算法a=arg maxa’Q(s,a’,θ),在行为空间A中选择行为a,计算新的定位点ρ'=ρ+a,并由控制计算机操控推进器将海洋结构物移动到的新定位距离,即新状态st+1
步骤6,将每一时间步的状态st、行为at、获得的奖励rt以及新的状态st+1作为标签数据存入控制计算机内的记忆库,利用神经网络随机选取标签数据进行梯度回归运算,通过最小化损失函数:
对神经网络进行训练,更新权重θ。其中,为上一迭代过程中的估计Q值。
步骤7,返回步骤5进行下一步的强化学习,继续选择新的定位点,由控制计算机根据新的定位点,控制海洋结构物的推进器,改变海洋结构物的定位距离ρ。
与现有技术相比,本发明的技术特点和有益效果在于:本发明可在不引入海洋结构物动力学模型的条件下,只需要海洋结构物的实时位置和推进器功率消耗等信息,自主学习保证推进器功率消耗最低的定位距离,学习过程不需要任何人为干预,并可随环境条件的变化自动调节学习结果,适用于未来全自动无人智能控制系统的开发,具有很高的应用价值。
附图说明
图1为半潜式海洋平台装备的锚泊辅助动力定位系统示意图
图2为基于强化学习的锚泊辅助动力定位系统控制方法流程图
图3为用于近似Q函数的神经网络示意图
图4为某应用案例中的定位点变化过程示意图。
具体实施方案
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和实施例,进一步阐述本发明。
图1显示了装备锚泊辅助动力定位系统的半潜式海洋平台,它一共装备八根锚链1-8,和八套全回转推进器①-⑧。在定位点控制模式下,锚泊辅助动力定位系统的定位点通常选择在锚泊系统在外载荷作用下的平均位置处,以使其抵抗大部分的平均环境载荷,从而将锚链的功用最大化,降低推进系统的功耗。如果定位点的选择不当,将出现无法充分发挥锚链的作用力,或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生,控制系统需要能够自主选择最优的定位点,以充分发挥锚泊辅助动力定位系统的定位性能,并降低推进系统的功耗。
针对锚泊辅助动力定位系统在定位点控制模式下的最优定位点选择问题,图2展示了一种基于强化学习的锚泊辅助动力定位系统控制方法流程图。该方法可以充分发挥锚泊系统在抵抗平均环境载荷中的主要作用,降低推进系统的功耗。
具体的,首先建立强化学习下的马尔科夫决策模型,具体包括:
(1)确定状态空间S,在海洋结构物的运动控制空间内构建极坐标系,状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。
(2)定义行为空间A={0,Δρ,-Δρ},Δρ为每次改变的距离步长,可取Δρ=1.5米。
(3)定义奖励函数r(s,a),其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为。使用在海洋结构物推进器内布设的功率传感器,实时采集的海洋结构物推进系统的功率消耗P(t),建立数据库并计算长度为T=6分钟的每个时间步内的平均功率消耗定义其中n为超参数,可取n=2。通过最大化奖励函数从而获得推进系统最小功率消耗所在的定位点,实现寻求最优定位点的目的。
强化学习是针对马尔科夫决策过程的一种机器学习算法,其基本原理为:若智能体在执行某个行为策略后,获得环境给予的正向奖励(强化信号),那么该智能体执行该方向行为策略的趋势就会加强,智能体的最终目标是发现最优策略以达到最大的累积奖赏。Q函数是强化学习算法中的一个函数,对应的值称为Q值,即状态-动作值,表示在某状态函数st下,选择行为at可获得的Q值。Q函数的数学定义为:
其中,rt为奖励函数,表示在t时刻执行动作所获得的回报值,γ为衰减因子,反映为当前动作奖赏与未来奖赏的比重,0≤γ≤1,示例性的,γ取0.9。控制方法使用神经网络(图2)近似Q函数,状态S为神经网络的输入,而神经网络的输出表示为Q(s,a;θ),其中θ为神经网络中的权重。
在锚泊辅助动力定位中,定位点距离的定义域为(0,ρs],随机选取初始点ρ0,控制计算机开始强化学习过程。在每一时间步中,基于锚泊辅助动力定位系统的当前状态st,即定位点距离,和ε贪心算法,在行为空间A中选择行为at,获得新的目标定位点,并由控制计算机执行将海洋结构物移动至新的状态st+1,并使用推进器系统的功率传感器获得奖励rt
每一时间步的状态st、行为决策at、获得的奖励rt和新的状态st+1都将作为标签数据存入控制计算机内的记忆库,其容量可设定为200个历史记忆。在对神经网路进行训练时,控制计算机随机抽取部分保存的经历进行学习,例如抽取60个记忆。随机抽取的做法降低了经历之间的相关性,也使神经网络更新更有效率。Q函数以优化损失函数为指标进行学习,得到一步更新后的Q函数值Q(si,ai;θi)。其中,为上一迭代过程中的估计Q值。更新完成后,进行下一时间步的决策和学习。
图4展示了锚泊辅助动力定位系统不断调整定位点的过程,设定的初始定位点ρ0=10米,大约经过10个小时的不断学习,定位点距离稳定在25米附近,即为当前海况下系统的最优定位点,此时锚泊系统的功用达到最大,推进系统的功率消耗保持在较低水平。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述例子的限制,上述实例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附权利要求书及其等同物界定。

Claims (1)

1.一种基于强化学习的锚泊辅助动力定位系统控制方法,其特征在于,包括以下步骤:
步骤1,在海洋结构物的推进器内布设测量推进器功率消耗的传感器,它能实时采集海洋结构物推进器的功率消耗P(t),计算长度为T的每个时间步内的平均功率消耗
步骤2,构建基于马尔科夫决策模型的强化学习模型:
(1)在大地坐标系下构建极坐标,确定状态空间S,状态空间S即海洋结构物重心与坐标原点的目标定位距离ρ;
(2)定义行为空间A={0,Δρ,-Δρ},其中Δρ为每次改变ρ的距离步长;
(3)定义奖励函数n为超参数;其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为;
步骤3,使用神经网络拟合强化学习模型中的Q函数:
其中,rt为每个时间段T后所得的奖励,γ为衰减因子,状态s为神经网络的输入,神经网络的输出表示为Q(s,a;θ),θ为神经网络中的权重参数;
步骤4,在定位点定义域(0,ρs],随机选取初始定位点ρ0,交给控制计算机进行定位点控制,并开始强化学习过程;
步骤5,在每一时间步中,基于海洋结构物的当前状态st及ε贪心算法a=argmaxa’Q(s,a’,θ),在行为空间A中选择行为at,计算新的定位点ρ'=ρ+a,并由控制计算机操控推进器,将海洋结构物移向新的定位点ρ',即新的状态st+1
步骤6,使用推进器内的功率传感器采集实时功率数据并得到计算当前时间步的奖励rt,将每一时间步的状态st、行为at、获得的奖励rt以及新的状态st+1作为标签数据存入控制计算机内用于保存数据的记忆库,利用神经网络在记忆库内随机选取标签数据进行梯度回归运算,通过最小化损失函数:
对神经网络进行训练,更新权重参数θ,其中,yi=ri+γmaxa’Q(s’,a’;θi -)为上一迭代过程中的估计Q值;
步骤7,返回步骤5进行下一步的强化学习,继续选择新的定位点,由控制计算机根据新的定位点,操控海洋结构物的推进器,控制海洋结构物的定位距离。
CN201810729080.2A 2018-07-05 2018-07-05 基于强化学习的锚泊辅助动力定位系统控制方法 Active CN109240280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810729080.2A CN109240280B (zh) 2018-07-05 2018-07-05 基于强化学习的锚泊辅助动力定位系统控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810729080.2A CN109240280B (zh) 2018-07-05 2018-07-05 基于强化学习的锚泊辅助动力定位系统控制方法

Publications (2)

Publication Number Publication Date
CN109240280A true CN109240280A (zh) 2019-01-18
CN109240280B CN109240280B (zh) 2021-09-07

Family

ID=65071732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810729080.2A Active CN109240280B (zh) 2018-07-05 2018-07-05 基于强化学习的锚泊辅助动力定位系统控制方法

Country Status (1)

Country Link
CN (1) CN109240280B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543888A (zh) * 2019-07-16 2019-12-06 浙江工业大学 一种基于群集递归神经网络的图像分类方法
CN110654384A (zh) * 2019-11-04 2020-01-07 湖南大学 一种基于深度强化学习的车道保持控制算法及系统
CN113211441A (zh) * 2020-11-30 2021-08-06 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
WO2023044878A1 (zh) * 2021-09-26 2023-03-30 西门子股份公司 运动控制方法及装置
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101746484A (zh) * 2008-12-12 2010-06-23 中国海洋石油总公司 锚泊式作业船舶在锚泊时跨越海底设施的操作方法
CN102445945A (zh) * 2011-10-23 2012-05-09 浙江海洋学院 一种船舶锚泊测控系统
CN103645635A (zh) * 2013-11-25 2014-03-19 大连海联自动控制有限公司 一种基于模拟退火-强化学习算法的船舶运动控制器
CN104112045A (zh) * 2014-07-07 2014-10-22 上海交通大学 基于动力定位能力综合标准的推力器局部最优配置方法
CN106184623A (zh) * 2016-07-15 2016-12-07 武汉船用机械有限责任公司 一种自升式平台四点锚泊定位控制系统及其控制方法
US20170024643A1 (en) * 2015-07-24 2017-01-26 Google Inc. Continuous control with deep reinforcement learning
US20170185087A1 (en) * 2008-06-30 2017-06-29 Autonomous Solutions, Inc. Vehicle dispatching method and system
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185087A1 (en) * 2008-06-30 2017-06-29 Autonomous Solutions, Inc. Vehicle dispatching method and system
CN101746484A (zh) * 2008-12-12 2010-06-23 中国海洋石油总公司 锚泊式作业船舶在锚泊时跨越海底设施的操作方法
CN102445945A (zh) * 2011-10-23 2012-05-09 浙江海洋学院 一种船舶锚泊测控系统
CN103645635A (zh) * 2013-11-25 2014-03-19 大连海联自动控制有限公司 一种基于模拟退火-强化学习算法的船舶运动控制器
CN104112045A (zh) * 2014-07-07 2014-10-22 上海交通大学 基于动力定位能力综合标准的推力器局部最优配置方法
US20170024643A1 (en) * 2015-07-24 2017-01-26 Google Inc. Continuous control with deep reinforcement learning
CN106184623A (zh) * 2016-07-15 2016-12-07 武汉船用机械有限责任公司 一种自升式平台四点锚泊定位控制系统及其控制方法
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺华成等: "半潜平台锚泊辅助动力定位时域模拟研究", 《海洋工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543888A (zh) * 2019-07-16 2019-12-06 浙江工业大学 一种基于群集递归神经网络的图像分类方法
CN110654384A (zh) * 2019-11-04 2020-01-07 湖南大学 一种基于深度强化学习的车道保持控制算法及系统
CN113211441A (zh) * 2020-11-30 2021-08-06 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN113211441B (zh) * 2020-11-30 2022-09-09 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
WO2023044878A1 (zh) * 2021-09-26 2023-03-30 西门子股份公司 运动控制方法及装置
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法
CN117369286B (zh) * 2023-12-04 2024-02-09 中国海洋大学 一种海洋平台动力定位控制方法

Also Published As

Publication number Publication date
CN109240280B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN109240280A (zh) 基于强化学习的锚泊辅助动力定位系统控制方法
US20220004191A1 (en) Usv formation path-following method based on deep reinforcement learning
US20230090824A1 (en) Action selection for reinforcement learning using a manager neural network that generates goal vectors defining agent objectives
CN110442135A (zh) 一种基于改进遗传算法的无人艇路径规划方法及系统
CN110472738A (zh) 一种基于深度强化学习的无人艇实时避障算法
CN108803321A (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN114217524B (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN106471394B (zh) 拖曳在水中的装备有仪器的缆线的动态定位方法和系统
CN109523029A (zh) 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN108255060A (zh) 基于极限学习机的船舶动力定位自抗扰控制方法
CN111199103B (zh) 全电力推进船舶的全流程自动计算的航速优化方法及系统
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN108563119A (zh) 一种基于模糊支持向量机算法的无人艇运动控制方法
US20220307468A1 (en) Wind turbine yaw offset control based on reinforcement learning
CN110245746A (zh) 一种bp神经网络学习率的改进方法
Wang et al. Intelligent fault diagnosis for planetary gearbox using transferable deep q network under variable conditions with small training data
KR102299140B1 (ko) 딥러닝을 기반으로 하는 바둑 게임 서비스 방법 및 그 장치
CN109885061A (zh) 一种基于改进nsga-ⅱ的动力定位多目标优化方法
CN115298668A (zh) 使用适应性回报计算方案强化学习
CN111813143B (zh) 一种基于强化学习的水下滑翔机智能控制系统及方法
US20220121920A1 (en) Multi-agent coordination method and apparatus
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
Liu et al. Reliability assessment of a floating offshore wind turbine mooring system based on the TLBO algorithm
Zhou et al. A Real-time algorithm for USV navigation based on deep reinforcement learning
CN102426418A (zh) 潜器全方位推进器单通道电液位置伺服控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant