CN109240280A - 基于强化学习的锚泊辅助动力定位系统控制方法 - Google Patents
基于强化学习的锚泊辅助动力定位系统控制方法 Download PDFInfo
- Publication number
- CN109240280A CN109240280A CN201810729080.2A CN201810729080A CN109240280A CN 109240280 A CN109240280 A CN 109240280A CN 201810729080 A CN201810729080 A CN 201810729080A CN 109240280 A CN109240280 A CN 109240280A
- Authority
- CN
- China
- Prior art keywords
- state
- anchor point
- intensified learning
- marine structure
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004873 anchoring Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 15
- 230000006399 behavior Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000005259 measurement Methods 0.000 claims abstract description 3
- 230000008859 change Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000035699 permeability Effects 0.000 abstract description 2
- 238000013016 damping Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法,包括:首先构建最优点选择问题的马尔科夫决策模型,构建状态空间与行为空间;采用神经网络构建强化学习模型Q函数,控制系统基于实时测量的锚泊辅助动力定位系统当前状态,采用ε贪心算法选择行为,观察在选择行为a后的系统状态s’与反馈奖励;将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库,并训练神经网络;通过不断重复上述过程,锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略,得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。
Description
技术领域
本发明涉及一种海洋结构物的锚泊与动力定位联合使用的控制方法,特别是一种基于强化学习的锚泊辅助动力定位系统控制方法。
背景技术
随着人类对海洋资源的开发规模的逐步扩大,在恶劣海况中作业的海洋结构物定位系统的发展,已成为海洋工程高技术装备研发中的重要课题之一。除了传统上使用锚泊系统的定位方法,越来越多的海洋平台和工程船开始装备动力定位系统,用以在复杂的海洋环境中完成较为精确的艏向和位置保持控制,从而能够安全高效地开展各类定点的海洋工程作业。锚泊系统与动力定位系统的联合使用方法也已应用于半潜式海洋平台和浮式生产储油卸油装置的定位控制中,此种方法又被称为锚泊辅助动力定位。与单纯的锚泊定位方式相比,锚泊辅助动力定位系统中的推进器可以为海洋结构物的定位提供额外的阻尼力或回复力,不仅能够减小海洋结构物的运动幅度以及锚链的疲劳和磨损,还可以在锚泊系统部分失效时,避免海洋结构物的严重失位以及锚泊系统的进一步破坏。与普通的动力定位系统相比,锚泊辅助动力定位系统中的锚链可以用来抵抗大部分的海洋环境载荷,而推进器仅需要发挥提供额外阻尼力的作用,这可以显著降低推进系统的功耗,提高海洋结构为定位系统的经济性。此外,锚泊系统与动力定位系统的联合使用,还能够提高定位系统的可靠性与安全性,并大幅增强海洋结构物抵抗极端海况的能力。
锚泊辅助动力定位系统主要包括手动控制、阻尼控制、定位点控制和跟踪控制等四种模式。在阻尼控制模式下,推进系统只为海洋结构物的定位提供额外的阻尼力,以减小它的运动幅度,而海洋结构物的平均位置则由锚泊系统和海洋环境载荷决定。在定位点模式下,控制系统将依据定位点位置计算所需的控制力和力矩,目的是将海洋结构物的位置保持在定位点处。锚泊辅助动力定位系统的定位点选择对于系统的定位性能和功耗有着直接的影响。在一般海况下,定位点通常选择在锚泊系统在外载荷作用下的平均位置处,以使其抵抗大部分的平均环境载荷,从而将锚链的功用最大化,降低推进系统的功耗。如果定位点的选择不当,将出现无法充分发挥锚链的作用力,或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生,控制系统需要能够自主选择最优的定位点,以充分发挥锚泊辅助动力定位系统的定位性能,并降低推进系统的功耗。
目前,锚泊辅助动力定位系统定位点的选择仍主要依赖操作人员的手动选择,定位点手动选择的质量依赖操作人员的经验,难以做到实时的最优选择,而部分文献提出的基于海洋结构物低频运动轨迹的定位点选择方法,会造成定位点在短时间内的持续变化,不利用控制系统的稳定,而且同样无法保证定位点选择的最优性,增加推进器的功率消耗,使得运营成本居高不下。
发明内容
本发明针对锚泊辅助动力定位系统在定位点控制模式下选择使得推进器的功率消耗最低的定位点的技术问题,提出一种基于强化学习的锚泊辅助动力系统控制方法,使控制计算机能够根据锚泊辅助动力定位系统的运行状态,自主计算最优的定位点,以避免锚泊系统与推进器在定位作用中的相互干扰,充分发挥锚泊系统在抵抗平均环境载荷中的主要作用,降低推进器的功率消耗。
为了实现上述目的,本发明技术解决方案包括以下步骤:
步骤1,在海洋结构物的推进器内布设测量推进器功率消耗的传感器,它能实时采集海洋结构物推进器的功率消耗P(t),计算长度为T的每个时间步内的平均功率消耗
步骤2,构建锚泊辅助动力定位系统在定位点控制模式下,基于马尔科夫决策模型的强化学习模型:
(1)确定状态空间S,在大地坐标系下构建极坐标,状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。
(2)定义行为空间A={0,Δρ,-Δρ},Δρ为每次改变ρ的距离步长。
(3)定义奖励函数r(s,a),其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为。在强化学习过程中,利用在推进器内布设功率传感器,实时采集的海洋结构物推进系统的功率消耗P(t),建立数据库并计算长度为T的每个时间步内的平均功率消耗定义n为超参数。通过最大化奖励函数获得推进系统功率消耗最小时所在的定位点,从而寻找到最优的定位点。
步骤3,利用神经网络拟合强化学习模型Q函数:
其中,rt为每个时间段T后所得的奖励函数,γ为衰减因子。状态s为神经网络的输入,Q(s,a;θ)表示神经网络的输出,其中θ为神经网络中的权重。
步骤4,在定位点定义域(0,ρs],随机选取初始定位点ρ0,交给控制计算机进行定位点控制,开始强化学习过程。
步骤5,在每一时间步中,基于海洋结构物的当前状态st及ε贪心算法a=arg maxa’Q(s,a’,θ),在行为空间A中选择行为a,计算新的定位点ρ'=ρ+a,并由控制计算机操控推进器将海洋结构物移动到的新定位距离,即新状态st+1。
步骤6,将每一时间步的状态st、行为at、获得的奖励rt以及新的状态st+1作为标签数据存入控制计算机内的记忆库,利用神经网络随机选取标签数据进行梯度回归运算,通过最小化损失函数:
对神经网络进行训练,更新权重θ。其中,为上一迭代过程中的估计Q值。
步骤7,返回步骤5进行下一步的强化学习,继续选择新的定位点,由控制计算机根据新的定位点,控制海洋结构物的推进器,改变海洋结构物的定位距离ρ。
与现有技术相比,本发明的技术特点和有益效果在于:本发明可在不引入海洋结构物动力学模型的条件下,只需要海洋结构物的实时位置和推进器功率消耗等信息,自主学习保证推进器功率消耗最低的定位距离,学习过程不需要任何人为干预,并可随环境条件的变化自动调节学习结果,适用于未来全自动无人智能控制系统的开发,具有很高的应用价值。
附图说明
图1为半潜式海洋平台装备的锚泊辅助动力定位系统示意图
图2为基于强化学习的锚泊辅助动力定位系统控制方法流程图
图3为用于近似Q函数的神经网络示意图
图4为某应用案例中的定位点变化过程示意图。
具体实施方案
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和实施例,进一步阐述本发明。
图1显示了装备锚泊辅助动力定位系统的半潜式海洋平台,它一共装备八根锚链1-8,和八套全回转推进器①-⑧。在定位点控制模式下,锚泊辅助动力定位系统的定位点通常选择在锚泊系统在外载荷作用下的平均位置处,以使其抵抗大部分的平均环境载荷,从而将锚链的功用最大化,降低推进系统的功耗。如果定位点的选择不当,将出现无法充分发挥锚链的作用力,或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生,控制系统需要能够自主选择最优的定位点,以充分发挥锚泊辅助动力定位系统的定位性能,并降低推进系统的功耗。
针对锚泊辅助动力定位系统在定位点控制模式下的最优定位点选择问题,图2展示了一种基于强化学习的锚泊辅助动力定位系统控制方法流程图。该方法可以充分发挥锚泊系统在抵抗平均环境载荷中的主要作用,降低推进系统的功耗。
具体的,首先建立强化学习下的马尔科夫决策模型,具体包括:
(1)确定状态空间S,在海洋结构物的运动控制空间内构建极坐标系,状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。
(2)定义行为空间A={0,Δρ,-Δρ},Δρ为每次改变的距离步长,可取Δρ=1.5米。
(3)定义奖励函数r(s,a),其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为。使用在海洋结构物推进器内布设的功率传感器,实时采集的海洋结构物推进系统的功率消耗P(t),建立数据库并计算长度为T=6分钟的每个时间步内的平均功率消耗定义其中n为超参数,可取n=2。通过最大化奖励函数从而获得推进系统最小功率消耗所在的定位点,实现寻求最优定位点的目的。
强化学习是针对马尔科夫决策过程的一种机器学习算法,其基本原理为:若智能体在执行某个行为策略后,获得环境给予的正向奖励(强化信号),那么该智能体执行该方向行为策略的趋势就会加强,智能体的最终目标是发现最优策略以达到最大的累积奖赏。Q函数是强化学习算法中的一个函数,对应的值称为Q值,即状态-动作值,表示在某状态函数st下,选择行为at可获得的Q值。Q函数的数学定义为:
其中,rt为奖励函数,表示在t时刻执行动作所获得的回报值,γ为衰减因子,反映为当前动作奖赏与未来奖赏的比重,0≤γ≤1,示例性的,γ取0.9。控制方法使用神经网络(图2)近似Q函数,状态S为神经网络的输入,而神经网络的输出表示为Q(s,a;θ),其中θ为神经网络中的权重。
在锚泊辅助动力定位中,定位点距离的定义域为(0,ρs],随机选取初始点ρ0,控制计算机开始强化学习过程。在每一时间步中,基于锚泊辅助动力定位系统的当前状态st,即定位点距离,和ε贪心算法,在行为空间A中选择行为at,获得新的目标定位点,并由控制计算机执行将海洋结构物移动至新的状态st+1,并使用推进器系统的功率传感器获得奖励rt。
每一时间步的状态st、行为决策at、获得的奖励rt和新的状态st+1都将作为标签数据存入控制计算机内的记忆库,其容量可设定为200个历史记忆。在对神经网路进行训练时,控制计算机随机抽取部分保存的经历进行学习,例如抽取60个记忆。随机抽取的做法降低了经历之间的相关性,也使神经网络更新更有效率。Q函数以优化损失函数为指标进行学习,得到一步更新后的Q函数值Q(si,ai;θi)。其中,为上一迭代过程中的估计Q值。更新完成后,进行下一时间步的决策和学习。
图4展示了锚泊辅助动力定位系统不断调整定位点的过程,设定的初始定位点ρ0=10米,大约经过10个小时的不断学习,定位点距离稳定在25米附近,即为当前海况下系统的最优定位点,此时锚泊系统的功用达到最大,推进系统的功率消耗保持在较低水平。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述例子的限制,上述实例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附权利要求书及其等同物界定。
Claims (1)
1.一种基于强化学习的锚泊辅助动力定位系统控制方法,其特征在于,包括以下步骤:
步骤1,在海洋结构物的推进器内布设测量推进器功率消耗的传感器,它能实时采集海洋结构物推进器的功率消耗P(t),计算长度为T的每个时间步内的平均功率消耗
步骤2,构建基于马尔科夫决策模型的强化学习模型:
(1)在大地坐标系下构建极坐标,确定状态空间S,状态空间S即海洋结构物重心与坐标原点的目标定位距离ρ;
(2)定义行为空间A={0,Δρ,-Δρ},其中Δρ为每次改变ρ的距离步长;
(3)定义奖励函数n为超参数;其中s和a分别属于状态空间S和行为空间A,即海洋结构物的当前状态和选择的行为;
步骤3,使用神经网络拟合强化学习模型中的Q函数:
其中,rt为每个时间段T后所得的奖励,γ为衰减因子,状态s为神经网络的输入,神经网络的输出表示为Q(s,a;θ),θ为神经网络中的权重参数;
步骤4,在定位点定义域(0,ρs],随机选取初始定位点ρ0,交给控制计算机进行定位点控制,并开始强化学习过程;
步骤5,在每一时间步中,基于海洋结构物的当前状态st及ε贪心算法a=argmaxa’Q(s,a’,θ),在行为空间A中选择行为at,计算新的定位点ρ'=ρ+a,并由控制计算机操控推进器,将海洋结构物移向新的定位点ρ',即新的状态st+1;
步骤6,使用推进器内的功率传感器采集实时功率数据并得到计算当前时间步的奖励rt,将每一时间步的状态st、行为at、获得的奖励rt以及新的状态st+1作为标签数据存入控制计算机内用于保存数据的记忆库,利用神经网络在记忆库内随机选取标签数据进行梯度回归运算,通过最小化损失函数:
对神经网络进行训练,更新权重参数θ,其中,yi=ri+γmaxa’Q(s’,a’;θi -)为上一迭代过程中的估计Q值;
步骤7,返回步骤5进行下一步的强化学习,继续选择新的定位点,由控制计算机根据新的定位点,操控海洋结构物的推进器,控制海洋结构物的定位距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810729080.2A CN109240280B (zh) | 2018-07-05 | 2018-07-05 | 基于强化学习的锚泊辅助动力定位系统控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810729080.2A CN109240280B (zh) | 2018-07-05 | 2018-07-05 | 基于强化学习的锚泊辅助动力定位系统控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109240280A true CN109240280A (zh) | 2019-01-18 |
CN109240280B CN109240280B (zh) | 2021-09-07 |
Family
ID=65071732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810729080.2A Active CN109240280B (zh) | 2018-07-05 | 2018-07-05 | 基于强化学习的锚泊辅助动力定位系统控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109240280B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543888A (zh) * | 2019-07-16 | 2019-12-06 | 浙江工业大学 | 一种基于群集递归神经网络的图像分类方法 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
WO2023044878A1 (zh) * | 2021-09-26 | 2023-03-30 | 西门子股份公司 | 运动控制方法及装置 |
CN117369286A (zh) * | 2023-12-04 | 2024-01-09 | 中国海洋大学 | 一种海洋平台动力定位控制方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101746484A (zh) * | 2008-12-12 | 2010-06-23 | 中国海洋石油总公司 | 锚泊式作业船舶在锚泊时跨越海底设施的操作方法 |
CN102445945A (zh) * | 2011-10-23 | 2012-05-09 | 浙江海洋学院 | 一种船舶锚泊测控系统 |
CN103645635A (zh) * | 2013-11-25 | 2014-03-19 | 大连海联自动控制有限公司 | 一种基于模拟退火-强化学习算法的船舶运动控制器 |
CN104112045A (zh) * | 2014-07-07 | 2014-10-22 | 上海交通大学 | 基于动力定位能力综合标准的推力器局部最优配置方法 |
CN106184623A (zh) * | 2016-07-15 | 2016-12-07 | 武汉船用机械有限责任公司 | 一种自升式平台四点锚泊定位控制系统及其控制方法 |
US20170024643A1 (en) * | 2015-07-24 | 2017-01-26 | Google Inc. | Continuous control with deep reinforcement learning |
US20170185087A1 (en) * | 2008-06-30 | 2017-06-29 | Autonomous Solutions, Inc. | Vehicle dispatching method and system |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
-
2018
- 2018-07-05 CN CN201810729080.2A patent/CN109240280B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185087A1 (en) * | 2008-06-30 | 2017-06-29 | Autonomous Solutions, Inc. | Vehicle dispatching method and system |
CN101746484A (zh) * | 2008-12-12 | 2010-06-23 | 中国海洋石油总公司 | 锚泊式作业船舶在锚泊时跨越海底设施的操作方法 |
CN102445945A (zh) * | 2011-10-23 | 2012-05-09 | 浙江海洋学院 | 一种船舶锚泊测控系统 |
CN103645635A (zh) * | 2013-11-25 | 2014-03-19 | 大连海联自动控制有限公司 | 一种基于模拟退火-强化学习算法的船舶运动控制器 |
CN104112045A (zh) * | 2014-07-07 | 2014-10-22 | 上海交通大学 | 基于动力定位能力综合标准的推力器局部最优配置方法 |
US20170024643A1 (en) * | 2015-07-24 | 2017-01-26 | Google Inc. | Continuous control with deep reinforcement learning |
CN106184623A (zh) * | 2016-07-15 | 2016-12-07 | 武汉船用机械有限责任公司 | 一种自升式平台四点锚泊定位控制系统及其控制方法 |
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
Non-Patent Citations (1)
Title |
---|
贺华成等: "半潜平台锚泊辅助动力定位时域模拟研究", 《海洋工程》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543888A (zh) * | 2019-07-16 | 2019-12-06 | 浙江工业大学 | 一种基于群集递归神经网络的图像分类方法 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN113211441B (zh) * | 2020-11-30 | 2022-09-09 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
WO2023044878A1 (zh) * | 2021-09-26 | 2023-03-30 | 西门子股份公司 | 运动控制方法及装置 |
CN117369286A (zh) * | 2023-12-04 | 2024-01-09 | 中国海洋大学 | 一种海洋平台动力定位控制方法 |
CN117369286B (zh) * | 2023-12-04 | 2024-02-09 | 中国海洋大学 | 一种海洋平台动力定位控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109240280B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109240280A (zh) | 基于强化学习的锚泊辅助动力定位系统控制方法 | |
US20220004191A1 (en) | Usv formation path-following method based on deep reinforcement learning | |
US20230090824A1 (en) | Action selection for reinforcement learning using a manager neural network that generates goal vectors defining agent objectives | |
CN110442135A (zh) | 一种基于改进遗传算法的无人艇路径规划方法及系统 | |
CN110472738A (zh) | 一种基于深度强化学习的无人艇实时避障算法 | |
CN108803321A (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN114217524B (zh) | 一种基于深度强化学习的电网实时自适应决策方法 | |
CN106471394B (zh) | 拖曳在水中的装备有仪器的缆线的动态定位方法和系统 | |
CN109523029A (zh) | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 | |
CN108255060A (zh) | 基于极限学习机的船舶动力定位自抗扰控制方法 | |
CN111199103B (zh) | 全电力推进船舶的全流程自动计算的航速优化方法及系统 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN108563119A (zh) | 一种基于模糊支持向量机算法的无人艇运动控制方法 | |
US20220307468A1 (en) | Wind turbine yaw offset control based on reinforcement learning | |
CN110245746A (zh) | 一种bp神经网络学习率的改进方法 | |
Wang et al. | Intelligent fault diagnosis for planetary gearbox using transferable deep q network under variable conditions with small training data | |
KR102299140B1 (ko) | 딥러닝을 기반으로 하는 바둑 게임 서비스 방법 및 그 장치 | |
CN109885061A (zh) | 一种基于改进nsga-ⅱ的动力定位多目标优化方法 | |
CN115298668A (zh) | 使用适应性回报计算方案强化学习 | |
CN111813143B (zh) | 一种基于强化学习的水下滑翔机智能控制系统及方法 | |
US20220121920A1 (en) | Multi-agent coordination method and apparatus | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
Liu et al. | Reliability assessment of a floating offshore wind turbine mooring system based on the TLBO algorithm | |
Zhou et al. | A Real-time algorithm for USV navigation based on deep reinforcement learning | |
CN102426418A (zh) | 潜器全方位推进器单通道电液位置伺服控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |