CN109240280A

CN109240280A - 基于强化学习的锚泊辅助动力定位系统控制方法

Info

Publication number: CN109240280A
Application number: CN201810729080.2A
Authority: CN
Inventors: 王磊; 李博; 余尚禹
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2019-01-18
Anticipated expiration: 2038-07-05
Also published as: CN109240280B

Abstract

本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法，包括：首先构建最优点选择问题的马尔科夫决策模型，构建状态空间与行为空间；采用神经网络构建强化学习模型Q函数，控制系统基于实时测量的锚泊辅助动力定位系统当前状态，采用ε贪心算法选择行为，观察在选择行为a后的系统状态s’与反馈奖励；将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库，并训练神经网络；通过不断重复上述过程，锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略，得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

Description

基于强化学习的锚泊辅助动力定位系统控制方法

技术领域

本发明涉及一种海洋结构物的锚泊与动力定位联合使用的控制方法，特别是一种基于强化学习的锚泊辅助动力定位系统控制方法。

背景技术

随着人类对海洋资源的开发规模的逐步扩大，在恶劣海况中作业的海洋结构物定位系统的发展，已成为海洋工程高技术装备研发中的重要课题之一。除了传统上使用锚泊系统的定位方法，越来越多的海洋平台和工程船开始装备动力定位系统，用以在复杂的海洋环境中完成较为精确的艏向和位置保持控制，从而能够安全高效地开展各类定点的海洋工程作业。锚泊系统与动力定位系统的联合使用方法也已应用于半潜式海洋平台和浮式生产储油卸油装置的定位控制中，此种方法又被称为锚泊辅助动力定位。与单纯的锚泊定位方式相比，锚泊辅助动力定位系统中的推进器可以为海洋结构物的定位提供额外的阻尼力或回复力，不仅能够减小海洋结构物的运动幅度以及锚链的疲劳和磨损，还可以在锚泊系统部分失效时，避免海洋结构物的严重失位以及锚泊系统的进一步破坏。与普通的动力定位系统相比，锚泊辅助动力定位系统中的锚链可以用来抵抗大部分的海洋环境载荷，而推进器仅需要发挥提供额外阻尼力的作用，这可以显著降低推进系统的功耗，提高海洋结构为定位系统的经济性。此外，锚泊系统与动力定位系统的联合使用，还能够提高定位系统的可靠性与安全性，并大幅增强海洋结构物抵抗极端海况的能力。

锚泊辅助动力定位系统主要包括手动控制、阻尼控制、定位点控制和跟踪控制等四种模式。在阻尼控制模式下，推进系统只为海洋结构物的定位提供额外的阻尼力，以减小它的运动幅度，而海洋结构物的平均位置则由锚泊系统和海洋环境载荷决定。在定位点模式下，控制系统将依据定位点位置计算所需的控制力和力矩，目的是将海洋结构物的位置保持在定位点处。锚泊辅助动力定位系统的定位点选择对于系统的定位性能和功耗有着直接的影响。在一般海况下，定位点通常选择在锚泊系统在外载荷作用下的平均位置处，以使其抵抗大部分的平均环境载荷，从而将锚链的功用最大化，降低推进系统的功耗。如果定位点的选择不当，将出现无法充分发挥锚链的作用力，或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生，控制系统需要能够自主选择最优的定位点，以充分发挥锚泊辅助动力定位系统的定位性能，并降低推进系统的功耗。

目前，锚泊辅助动力定位系统定位点的选择仍主要依赖操作人员的手动选择，定位点手动选择的质量依赖操作人员的经验，难以做到实时的最优选择，而部分文献提出的基于海洋结构物低频运动轨迹的定位点选择方法，会造成定位点在短时间内的持续变化，不利用控制系统的稳定，而且同样无法保证定位点选择的最优性，增加推进器的功率消耗，使得运营成本居高不下。

发明内容

本发明针对锚泊辅助动力定位系统在定位点控制模式下选择使得推进器的功率消耗最低的定位点的技术问题，提出一种基于强化学习的锚泊辅助动力系统控制方法，使控制计算机能够根据锚泊辅助动力定位系统的运行状态，自主计算最优的定位点，以避免锚泊系统与推进器在定位作用中的相互干扰，充分发挥锚泊系统在抵抗平均环境载荷中的主要作用，降低推进器的功率消耗。

为了实现上述目的，本发明技术解决方案包括以下步骤：

步骤1，在海洋结构物的推进器内布设测量推进器功率消耗的传感器，它能实时采集海洋结构物推进器的功率消耗P(t)，计算长度为T的每个时间步内的平均功率消耗

步骤2，构建锚泊辅助动力定位系统在定位点控制模式下，基于马尔科夫决策模型的强化学习模型：

(1)确定状态空间S，在大地坐标系下构建极坐标，状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。

(2)定义行为空间A＝{0,Δρ,-Δρ}，Δρ为每次改变ρ的距离步长。

(3)定义奖励函数r(s,a)，其中s和a分别属于状态空间S和行为空间A，即海洋结构物的当前状态和选择的行为。在强化学习过程中，利用在推进器内布设功率传感器，实时采集的海洋结构物推进系统的功率消耗P(t)，建立数据库并计算长度为T的每个时间步内的平均功率消耗定义n为超参数。通过最大化奖励函数获得推进系统功率消耗最小时所在的定位点，从而寻找到最优的定位点。

步骤3，利用神经网络拟合强化学习模型Q函数：

其中，r_t为每个时间段T后所得的奖励函数，γ为衰减因子。状态s为神经网络的输入，Q(s,a；θ)表示神经网络的输出，其中θ为神经网络中的权重。

步骤4，在定位点定义域(0,ρ_s]，随机选取初始定位点ρ₀，交给控制计算机进行定位点控制，开始强化学习过程。

步骤5，在每一时间步中，基于海洋结构物的当前状态s_t及ε贪心算法a＝arg max_a’Q(s,a’,θ)，在行为空间A中选择行为a，计算新的定位点ρ'＝ρ+a，并由控制计算机操控推进器将海洋结构物移动到的新定位距离，即新状态s_t+1。

步骤6，将每一时间步的状态s_t、行为a_t、获得的奖励r_t以及新的状态s_t+1作为标签数据存入控制计算机内的记忆库，利用神经网络随机选取标签数据进行梯度回归运算，通过最小化损失函数：

对神经网络进行训练，更新权重θ。其中，为上一迭代过程中的估计Q值。

步骤7，返回步骤5进行下一步的强化学习，继续选择新的定位点，由控制计算机根据新的定位点，控制海洋结构物的推进器，改变海洋结构物的定位距离ρ。

与现有技术相比，本发明的技术特点和有益效果在于：本发明可在不引入海洋结构物动力学模型的条件下，只需要海洋结构物的实时位置和推进器功率消耗等信息，自主学习保证推进器功率消耗最低的定位距离，学习过程不需要任何人为干预，并可随环境条件的变化自动调节学习结果，适用于未来全自动无人智能控制系统的开发，具有很高的应用价值。

附图说明

图1为半潜式海洋平台装备的锚泊辅助动力定位系统示意图

图2为基于强化学习的锚泊辅助动力定位系统控制方法流程图

图3为用于近似Q函数的神经网络示意图

图4为某应用案例中的定位点变化过程示意图。

具体实施方案

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合附图和实施例，进一步阐述本发明。

图1显示了装备锚泊辅助动力定位系统的半潜式海洋平台，它一共装备八根锚链1-8，和八套全回转推进器①-⑧。在定位点控制模式下，锚泊辅助动力定位系统的定位点通常选择在锚泊系统在外载荷作用下的平均位置处，以使其抵抗大部分的平均环境载荷，从而将锚链的功用最大化，降低推进系统的功耗。如果定位点的选择不当，将出现无法充分发挥锚链的作用力，或者推进系统主动拉拽锚泊系统的情况。为了避免锚泊系统与动力定位系统在发挥定位作用时相互干扰状况的发生，控制系统需要能够自主选择最优的定位点，以充分发挥锚泊辅助动力定位系统的定位性能，并降低推进系统的功耗。

针对锚泊辅助动力定位系统在定位点控制模式下的最优定位点选择问题，图2展示了一种基于强化学习的锚泊辅助动力定位系统控制方法流程图。该方法可以充分发挥锚泊系统在抵抗平均环境载荷中的主要作用，降低推进系统的功耗。

具体的，首先建立强化学习下的马尔科夫决策模型，具体包括：

(1)确定状态空间S，在海洋结构物的运动控制空间内构建极坐标系，状态定义为海洋结构物重心与坐标原点的目标定位距离ρ。

(2)定义行为空间A＝{0,Δρ,-Δρ}，Δρ为每次改变的距离步长，可取Δρ＝1.5米。

(3)定义奖励函数r(s,a)，其中s和a分别属于状态空间S和行为空间A，即海洋结构物的当前状态和选择的行为。使用在海洋结构物推进器内布设的功率传感器，实时采集的海洋结构物推进系统的功率消耗P(t)，建立数据库并计算长度为T＝6分钟的每个时间步内的平均功率消耗定义其中n为超参数，可取n＝2。通过最大化奖励函数从而获得推进系统最小功率消耗所在的定位点，实现寻求最优定位点的目的。

强化学习是针对马尔科夫决策过程的一种机器学习算法，其基本原理为：若智能体在执行某个行为策略后，获得环境给予的正向奖励(强化信号)，那么该智能体执行该方向行为策略的趋势就会加强，智能体的最终目标是发现最优策略以达到最大的累积奖赏。Q函数是强化学习算法中的一个函数，对应的值称为Q值，即状态-动作值，表示在某状态函数s_t下，选择行为a_t可获得的Q值。Q函数的数学定义为：

其中，r_t为奖励函数，表示在t时刻执行动作所获得的回报值，γ为衰减因子，反映为当前动作奖赏与未来奖赏的比重，0≤γ≤1，示例性的，γ取0.9。控制方法使用神经网络(图2)近似Q函数，状态S为神经网络的输入，而神经网络的输出表示为Q(s,a；θ)，其中θ为神经网络中的权重。

在锚泊辅助动力定位中，定位点距离的定义域为(0,ρ_s]，随机选取初始点ρ₀，控制计算机开始强化学习过程。在每一时间步中，基于锚泊辅助动力定位系统的当前状态s_t，即定位点距离，和ε贪心算法，在行为空间A中选择行为a_t，获得新的目标定位点，并由控制计算机执行将海洋结构物移动至新的状态s_t+1，并使用推进器系统的功率传感器获得奖励r_t。

每一时间步的状态s_t、行为决策a_t、获得的奖励r_t和新的状态s_t+1都将作为标签数据存入控制计算机内的记忆库，其容量可设定为200个历史记忆。在对神经网路进行训练时，控制计算机随机抽取部分保存的经历进行学习，例如抽取60个记忆。随机抽取的做法降低了经历之间的相关性,也使神经网络更新更有效率。Q函数以优化损失函数为指标进行学习，得到一步更新后的Q函数值Q(s_i,a_i；θ_i)。其中，为上一迭代过程中的估计Q值。更新完成后，进行下一时间步的决策和学习。

图4展示了锚泊辅助动力定位系统不断调整定位点的过程，设定的初始定位点ρ₀＝10米，大约经过10个小时的不断学习，定位点距离稳定在25米附近，即为当前海况下系统的最优定位点，此时锚泊系统的功用达到最大，推进系统的功率消耗保持在较低水平。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述例子的限制，上述实例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附权利要求书及其等同物界定。

Claims

1.一种基于强化学习的锚泊辅助动力定位系统控制方法，其特征在于，包括以下步骤：

步骤2，构建基于马尔科夫决策模型的强化学习模型：

(1)在大地坐标系下构建极坐标，确定状态空间S，状态空间S即海洋结构物重心与坐标原点的目标定位距离ρ；

(2)定义行为空间A＝{0,Δρ,-Δρ}，其中Δρ为每次改变ρ的距离步长；

(3)定义奖励函数n为超参数；其中s和a分别属于状态空间S和行为空间A，即海洋结构物的当前状态和选择的行为；

步骤3，使用神经网络拟合强化学习模型中的Q函数：

其中，r_t为每个时间段T后所得的奖励，γ为衰减因子，状态s为神经网络的输入，神经网络的输出表示为Q(s,a；θ)，θ为神经网络中的权重参数；

步骤4，在定位点定义域(0,ρ_s]，随机选取初始定位点ρ₀，交给控制计算机进行定位点控制，并开始强化学习过程；

步骤5，在每一时间步中，基于海洋结构物的当前状态s_t及ε贪心算法a＝argmax_a’Q(s,a’,θ)，在行为空间A中选择行为a_t，计算新的定位点ρ'＝ρ+a，并由控制计算机操控推进器，将海洋结构物移向新的定位点ρ'，即新的状态s_t+1；

步骤6，使用推进器内的功率传感器采集实时功率数据并得到计算当前时间步的奖励r_t，将每一时间步的状态s_t、行为a_t、获得的奖励r_t以及新的状态s_t+1作为标签数据存入控制计算机内用于保存数据的记忆库，利用神经网络在记忆库内随机选取标签数据进行梯度回归运算，通过最小化损失函数：

对神经网络进行训练，更新权重参数θ，其中，y_i＝r_i+γmax_a’Q(s’,a’；θ_i ^-)为上一迭代过程中的估计Q值；

步骤7，返回步骤5进行下一步的强化学习，继续选择新的定位点，由控制计算机根据新的定位点，操控海洋结构物的推进器，控制海洋结构物的定位距离。