CN117369286A

CN117369286A - 一种海洋平台动力定位控制方法

Info

Publication number: CN117369286A
Application number: CN202311640639.1A
Authority: CN
Inventors: 崔璨; 王树青; 王立豪
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-09
Anticipated expiration: 2043-12-04
Also published as: CN117369286B

Abstract

本发明涉及一种海洋平台动力定位控制方法，属于海洋能源技术领域，包括以下步骤：步骤1：获取海洋平台的当前状态；步骤2：构建并训练强化学习模型，将当前状态输入强化学习模型，构建海洋平台动态环境下的奖励函数；步骤3：基于奖励函数设计海洋平台动力定位的参考轨迹序列，输出当前状态下的最佳参考轨迹序列；步骤4：自抗扰控制器跟踪最佳移动参考轨迹序列并计算获得最终控制量，将最终控制量输入驱动器以驱动推进器牵引海洋平台沿最佳参考轨迹序列移动至目标位置。本发明通过将传统动力定位控制方法与强化学习算法相结合，充分利用了海洋平台关键状态以及风浪等外部环境的影响，实现了海洋平台准确、快速、平稳的动力定位。

Description

一种海洋平台动力定位控制方法

技术领域

本发明属于海洋能源技术领域，尤其涉及一种海洋平台动力定位控制方法。

背景技术

海洋平台广泛应用于海上钻井、采油、集运、施工等活动，是集人员居住、勘探开发、生产指挥于一体的重要海工装备。相比于地面建筑，海洋平台长期处于极端复杂的海况条件，地震、台风、海浪、交变载荷等诸多因素均可能导致海洋平台产生位置、艏向偏移，影响平台正常生产工作。

海洋平台目前有主要三种定位方式：锚泊定位、动力定位和混合式定位。一般而言，工作水深超过1500米时，主要采用动力定位方式。海洋平台动力定位是指使用推进器等动力装置来抵消海风、海浪和海流等作用于海洋平台上的环境外力，从而使其保持在某个特定要求的位置、艏向或维持预设的航迹。

海洋平台的动力定位系统通常依赖GPS、惯性导航系统和相关传感器来实时监测平台位置、艏向，并通过合适的控制方法来控制推进器保持位置、艏向或维持航迹。现有技术中常见的控制方法为PID控制和基于MPC的控制方法。然而，PID控制是一种线性控制方法，通常不能适应不断变化的环境条件，基于MPC的控制方法虽具有更好的控制性能和鲁棒性，但是当模型不足以准确描述海洋平台位置、艏向变化和海洋外界环境影响时，控制性能往往会偏离预期。若使用遗传算法等优化方法对上述控制方法进行优化，通常需要较长的计算时间，不适合需要实时响应的控制任务。此外，该类优化算法依赖于随机搜索，并不能保证获得全局最优解。因此，目前亟需探索一种能够适应海洋平台定力定位非线性、时变、不确定且与外界环境密切相关等特点的无模型控制方法，以实现海洋平台准确、快速、平稳的动力定位。

发明内容

本发明的目的在于解决上述技术问题之一，提供一种海洋平台动力定位控制方法。

为实现上述目的，本发明采用的技术方案是：

一种海洋平台动力定位控制方法，包括以下步骤：

步骤1：获取海洋平台当前时刻的状态：

；

其中，t是时刻，t=1,2,3，…；是t时刻海洋平台所处的位置，/>是t时刻海洋平台艏向角，/>是t时刻海洋平台所受的外部海风冲击力，/>是t时刻海洋平台所受的外部海浪冲击力，/>是t时刻海洋平台所受的外部海流冲击力；

步骤2：构建并训练基于SAC算法的强化学习模型，将状态输入强化学习模型，基于状态/>构建海洋平台动态环境下的奖励函数/>；

步骤3：使用强化学习模型设计海洋平台动力定位的参考轨迹序列，并使用奖励函数引导SAC算法的智能体自适应地修正环境干扰导致的参考轨迹设计误差，通过最大化动作熵提高SAC算法中随机策略的探索能力和自适应能力，获得状态/>下的对海洋平台的最优控制策略，并输出状态/>下海洋平台动力定位的最佳参考轨迹序列/>；

步骤4：将最佳参考轨迹序列作为标准控制信号输入至自抗扰控制器，自抗扰控制器基于最佳参考轨迹序列/>和海洋平台当前时刻的状态/>计算获得控制量/>，将控制量作为推进器的输入信号输入至推进器，驱动推进器牵引海洋平台沿最佳参考轨迹序列/>移动至最佳参考轨迹序列/>中的目标位置。

本发明一些实施例中，步骤2具体包括以下步骤：

基于状态分别构建t时刻对位移和艏向偏移的奖励函数/>、对非平稳运行的奖励函数/>以及对运动时间的奖励函数/>，并进一步计算获得总体奖励函数/>，总体奖励函数/>的表达式为：

；

其中，和/>均为权重系数。

本发明一些实施例中，构建对位移、艏向偏移的奖励函数的方法包括以下步骤：

基于t时刻海洋平台的艏向角和t时刻海洋平台所处的位置/>确定海洋平台t时刻的位置偏移范围和艏向偏移范围；

定义海洋平台的偏移异常程度l，基于海洋平台t时刻的位置偏移范围和艏向偏移范围将海洋平台的偏移异常程度l划分为1、2、3三级；

为三级偏移异常程度分别设置各自的偏移异常奖励系数、/>和/>，以构建t时刻对位移和艏向偏移的奖励函数/>：

。

本发明一些实施例中，构建对非平稳运行的奖励函数的方法包括以下步骤：

基于t时刻海洋平台的艏向角和t时刻海洋平台所处的位置/>确定海洋平台的整体倾角η；

基于整体倾角η构建t时刻对非平稳运行的奖励函数：

。

本发明一些实施例中，构建对运动时间的奖励函数的方法包括以下步骤：

设置运动时间奖励系数；

构建对运动时间的奖励函数：

；

其中，为海洋平台开始运动的时刻。

本发明一些实施例中，步骤3具体包括以下步骤：

步骤3.1：将海洋平台的动力定位控制过程转化为包含状态s、动作a和奖励r的马尔可夫决策过程；

其中，t时刻的状态为，且/>，t时刻的动作为/>，且，/>为t时刻海洋平台的位置变化量；/>为t时刻海洋平台的艏向变化量；t时刻在状态/>下执行控制动作/>获得的即时奖励为/>；

步骤3.2：构建策略网络π，用于实现输入状态并输出动作/>；

构建Q网络和目标Q网络，分别用于基于状态和动作/>输出各自对应的状态-动作价值函数值；

步骤3.3：设置强化学习模型迭代的最大回合数；

步骤3.4：随机初始化策略网络π和Q网络的网络参数；初始化目标Q网络的网络参数；设置经验回放池D并初始化经验回放池大小；初始化SAC算法的熵系数；

步骤3.5：获取t时刻的状态；

步骤3.6：选择动作，规划海洋平台动力定位的移动参考轨迹；执行动作，计算t时刻的总体奖励函数值，并获得t+1时刻的状态/>；

步骤3.7：构建经验对，并将其存储至经验回放池D；

步骤3.8：从经验回放池D中随机抽取N个经验对，更新Q网络参数、目标网络参数、策略网络参数和熵函数；

步骤3.9：更新当前状态，赋值，/>；

步骤3.10：重复步骤3.5-步骤3.9，直至迭代次数达到最大回合数，输出状态下海洋平台的最佳参考轨迹序列/>；

本发明一些实施例中，步骤3.8具体包括以下步骤：

步骤3.8.1：从经验回放池D中随机抽取N个经验对；

步骤3.8.2：采用梯度下降法对Q网络的网络参数进行训练，更新Q网络参数，；

其中，为Q网络的参数，/>为Q网络更新参数，/>为目标函数的梯度，为Q网络更新的目标函数：

；

其中，为Q网络的状态-动作价值函数，/>为目标Q网络的状态-动作价值函数，/>为目标Q网络的参数；/>为从经验回放池D中抽取的情况下的数学期望；

步骤3.8.3：更新策略网络参数，；

其中，为策略网络参数，/>为策略网络更新参数，/>为目标函数的梯度，为策略网络π更新的目标函数；

采用重参数化方法，设置动作为/>；

其中，函数为输出均值和方差的函数，/>为符合标准正态分布的输入噪声；

确定策略网络π更新的目标函数的表达式为：

；

其中，为在当前状态、动作和参数下的输出策略，为状态-动作价值函数；/>为从经验回放池D中抽取/>、从/>中抽取/>的情况下的数学期望，/>为符合标准正态分布的输入噪声的参数集；

步骤3.8.4：更新SAC算法的熵函数；

最大化策略输出的动作熵：

；

其中，T为回合长度，为在当前状态和动作下t时刻的奖励函数，/>为SAC算法的熵系数，用于权衡期望奖励与动作熵的比例，/>为动作熵函数，/>为在当前状态和动作下的数学期望，动作熵函数为在/>下，选择动作/>的期望值，动作熵函数表达式为：

；

步骤3.8.5：更新目标网络参数，；

其中，为预设的更新参数，/>为在当前动作下的数学期望。

本发明一些实施例中，步骤4具体包括以下步骤：

步骤4.1：安排海洋平台动力定位的过渡过程：

将最佳参考轨迹序列作为标准控制信号输入至自抗扰控制器，自抗扰控制器驱动推进器跟踪最佳参考轨迹序列/>，进行倾角与位置的调整；自抗扰控制器包括跟踪微分器、非线性状态反馈和扩张观测器；

构建用于控制自抗扰控制器的第一公式组：

；

其中，为过渡过程，/>为微分信号，/>为过渡过程/>与最佳参考轨迹序列/>的误差，/>为第一公式组的中间变量，/>为预设的积分步长，/>为预设的参数；/>为最速控制综合函数，/>为/>的微分形式，/>为/>的微分形式；

构建用于控制自抗扰控制器的第二公式组：

；

其中，、/>、/>、/>、/>为均第二公式组的中间变量，/>函数为符号函数,且，/>函数为用于减少高频振荡的函数,且：

；

自抗扰控制器的跟踪微分器使用第一公式组安排过渡过程并提取过渡过程/>的微分信号/>，基于微分信号/>和第二公式组确定用于进行缓冲的最速控制综合函数；

步骤4.2：扩张观测器基于推进器的输入信号和输出信号/>计算推进器的运行状态/>和/>；

构建第三公式组：

；

其中，为作用于推进器的扰动估计值，/>为/>的微分形式，/>为/>的微分形式，为/>的微分形式，/>为估计值与实际运行状态值的估计误差，/>为相关参数，/>为一组调节参数，/>和/>函数为滤波器函数，且：

，

和/>均为影响滤波的常数；

扩张观测器基于第三公式组、运行状态和/>计算作用于推进器的扰动估计值/>；

步骤4.3：计算海洋平台动力定位控制系统的状态误差和/>；

其中，，/>；

基于状态误差和/>计算状态误差的非线性反馈率/>：

；

其中，和/>均为预设的参数，/>为预设的积分步长；

步骤4.4：使用扰动估计值对状态误差的非线性反馈率/>进行补偿，并基于海洋平台所受的外部海风冲击力/>、海浪冲击力/>和海流冲击力/>计算对推进器的最终控制量/>：

；

其中，和/>为预设的决定补偿强弱的补偿因子。

本发明的有益效果在于：

1、本发明实现了传统动力定位控制方法与强化学习算法的结合，并将其应用于海洋平台动力定位，弥补了现有的动力定位方法在受到外界干扰的情况下无法实现准确、快速定位的缺陷，同时大大提高了收敛速度和控制效果；

2、本发明充分利用了海洋平台关键状态以及风浪等外部环境的影响，控制过程中使用强化学习模型获得海洋平台的最佳参考运动轨迹，并使用自抗扰控制器进行运动轨迹跟踪，最终在推进器的牵引下运动到目标位置，实现了海洋平台准确、快速、平稳的动力定位，确保海洋平台能够在恶劣的海洋环境下正常生产工作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将结合附图来详细说明本发明的具体实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为海洋平台动力定位控制方法流程图；

图2为海洋平台动力定位控制的整体结构图；

图3为SAC算法的结构图；

图4为自抗扰控制器的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例及说明书附图，对本发明的技术方案作详细说明。

如附图1-4所示，在本发明一种海洋平台动力定位控制方法的一个示意性施例中，该动力定位控制方法包括以下步骤。

步骤1：使用相关传感器采集当前时刻海洋平台的位置、艏向以及海风、海浪、海流等外部冲击力，获取海洋平台当前时刻的状态：

；

其中，t是时刻，t=1,2,3，…；是t时刻海洋平台所处的位置，/>是t时刻海洋平台艏向角，/>是t时刻海洋平台所受的外部海风冲击力，/>是t时刻海洋平台所受的外部海浪冲击力，/>是t时刻海洋平台所受的外部海流冲击力。

步骤2：构建并训练基于SAC算法的强化学习模型。其中，SAC是一种基于最大熵模型框架的强化学习算法，SAC算法的具体结构如附图3所示。其通过最大熵目标来平衡探索和利用，使得智能体能够更好地探索环境，获得具有更加鲁棒的强化学习策略。相较于其他强化学习算法，SAC具有离线学习、多目标优化、抗干扰性强等特点。

将状态输入基于SAC算法的强化学习模型，基于状态/>构建海洋平台动态环境下的奖励函数/>。

本发明一些实施例中，步骤2具体包括以下步骤。

强化学习模型中的强化学习智能体在t时刻的奖励由三个部分组成，分别是对位移、艏向偏移的惩罚、对非平稳运行的惩罚以及对运动时间的惩罚。基于状态分别构建t时刻对位移和艏向偏移的奖励函数/>、对非平稳运行的奖励函数/>以及对运动时间的奖励函数/>，并进一步计算获得总体奖励函数/>，总体奖励函数/>的表达式为：

。

其中，和/>均为权重系数，代表各部分奖励之间的权重，可根据实际情况进行预设。

本发明一些实施例中，构建对位移、艏向偏移的奖励函数的方法包括以下步骤。

基于t时刻海洋平台的艏向角和t时刻海洋平台所处的位置/>确定海洋平台t时刻的位置偏移范围和艏向偏移范围。

定义海洋平台的偏移异常程度l，基于海洋平台t时刻的位置偏移范围和艏向偏移范围将海洋平台的偏移异常程度l划分为1、2、3三级。

为三级偏移异常程度分别设置各自的偏移异常奖励系数、/>和/>。具体接口异常程度l划分及其对应的奖励系数如表1所示。

表1 奖励系数设置表

在本实施例中，设置为-0.5，/>设置为-0.6，/>设置为-0.8。

构建t时刻对位移和艏向偏移的奖励函数：

。

可以理解的是，对位移和艏向偏移的奖励函数本质为对t时刻位移和艏向偏移的惩罚。

本发明一些实施例中，为保证海洋平台运动过程中的安全性，必须保证在运动过程中其整体倾角η保持在安全范围内。构建对非平稳运行的奖励函数的方法包括以下步骤：

基于整体倾角η构建t时刻对非平稳运行的奖励函数：

。

可以理解的是，对非平稳运行的奖励函数本质为对海洋平台非平稳运行的惩罚。

设置运动时间奖励系数，在本实施例中，/>设置为-0.5。

构建对运动时间的奖励函数：

；

其中，为海洋平台开始运动的时刻。

可以理解的是，对运动时间的奖励函数本质为对运动时间的惩罚，运动时间越长，负向奖励越大。

步骤3：使用强化学习模型设计海洋平台动力定位的参考轨迹序列，将海洋平台的动力定位控制问题转化为马尔可夫决策过程问题，建立Q网络与策略网络π，对网络进行训练与更新。并使用奖励函数引导SAC算法的智能体自适应地修正环境干扰导致的参考轨迹设计误差，通过最大化动作熵提高SAC算法中随机策略的探索能力和自适应能力，获得状态/>下的对海洋平台的最优控制策略，并输出状态/>下海洋平台动力定位的最佳参考轨迹序列/>。

本发明一些实施例中，步骤3具体包括以下步骤。

步骤3.1：将海洋平台的动力定位控制过程转化为包含状态s、动作a和奖励r的马尔可夫决策过程。

其中，t时刻的状态为，且/>，t时刻的动作为/>，且，/>为t时刻海洋平台的位置变化量；/>为t时刻海洋平台的艏向变化量；t时刻在状态/>下执行控制动作/>获得的即时奖励为/>。

步骤3.2：构建策略网络π，用于实现输入状态并输出动作/>。

构建Q网络和目标Q网络，分别用于基于状态和动作/>输出各自对应的状态-动作价值函数值。

步骤3.3：设置强化学习模型迭代的最大回合数。

步骤3.4：随机初始化策略网络π和Q网络的网络参数；初始化目标Q网络的网络参数；设置经验回放池D并初始化经验回放池大小；初始化SAC算法的熵系数。

步骤3.5：获取t时刻的状态。

步骤3.6：选择动作，规划海洋平台动力定位的移动参考轨迹，进行角度和位移的调整；执行动作，计算t时刻的总体奖励函数值，并获得t+1时刻的状态/>。

步骤3.7：构建经验对，并将其存储至经验回放池D。

步骤3.8：从经验回放池D中随机抽取N个经验对，更新Q网络参数、目标网络参数、策略网络参数和熵函数。

步骤3.9：更新当前状态，赋值，/>。

步骤3.10：重复步骤3.5-步骤3.9，直至迭代次数达到最大回合数，输出状态下海洋平台的最佳参考轨迹序列/>。

本发明一些实施例中，步骤3.8具体包括以下步骤。

步骤3.8.1：从经验回放池D中随机抽取N个经验对。

步骤3.8.2：采用梯度下降法对Q网络的网络参数进行训练，更新Q网络参数，。

。

其中，为Q网络的状态-动作价值函数，/>为目标Q网络的状态-动作价值函数，/>为目标Q网络的参数；/>为从经验回放池D中抽取的情况下的数学期望。

步骤3.8.3：更新策略网络参数，。

其中，为策略网络参数，/>为策略网络更新参数，/>为目标函数的梯度，为策略网络π更新的目标函数。

采用重参数化方法，设置动作为/>。

其中，函数为输出均值和方差的函数，/>为符合标准正态分布的输入噪声。

确定策略网络π更新的目标函数的表达式为：

。

其中，为在当前状态、动作和参数下的输出策略，为状态-动作价值函数；/>为从经验回放池D中抽取/>、从/>中抽取/>的情况下的数学期望，/>为符合标准正态分布的输入噪声的参数集。

步骤3.8.4：更新SAC算法的熵函数。

SAC算法最大化策略输出的动作熵，使策略随机化并得到最优轨迹策略，具体方法如下。

最大化策略输出的动作熵：

。

步骤3.8.5：更新目标网络参数，。

其中，为预设的更新参数，/>为在当前动作下的数学期望。

自抗扰控制器的输入是强化学习模型输出的最佳参考轨迹序列，控制变量是推进器的推进力和推进方向，得到的反馈是实时的轨迹方向和位置。自抗扰控制器的结构如附图4所示，其包括三个组件：跟踪微分器，非线性状态反馈和扩张观测器。本发明中将外界的海风、海浪、海流产生的冲击力作为扰动进行干扰补偿，实现对参考轨迹准确跟踪，完成动力定位。

本发明一些实施例中，步骤4具体包括以下步骤。

步骤4.1：安排海洋平台动力定位的过渡过程。

将最佳参考轨迹序列作为标准控制信号输入至自抗扰控制器，自抗扰控制器驱动推进器跟踪最佳参考轨迹序列/>，进行倾角与位置的调整。

构建用于控制自抗扰控制器的第一公式组：

。

其中，为过渡过程，/>为微分信号，/>为过渡过程/>与最佳参考轨迹序列/>的误差，/>为第一公式组的中间变量，/>为预设的积分步长，/>为预设的参数；/>为最速控制综合函数，/>为/>的微分形式，/>为/>的微分形式。

需要说明的是，最速跟踪综合函数的作用进行缓冲，例如，输入一个阶跃信号，它会让信号有一定斜率，让执行机构不会启动就进入最大马力，导致第一次及后面几次逼近设定值时出现超调。

构建用于控制自抗扰控制器的第二公式组：

。

自抗扰控制器的跟踪微分器使用第一公式组安排过渡过程并提取过渡过程/>的微分信号/>，基于微分信号/>和第二公式组确定用于进行缓冲的最速控制综合函数。

步骤4.2：扩张观测器基于推进器的输入信号和输出信号/>计算推进器的运行状态/>和/>。

构建第三公式组：

。

，

和/>均为影响滤波的常数。

扩张观测器基于第三公式组、运行状态和/>计算作用于推进器的扰动估计值/>。

步骤4.3：计算状态误差的非线性反馈率。具体包括以下步骤。

计算海洋平台动力定位控制系统的状态误差和/>。

其中，，/>。

基于状态误差和/>计算状态误差的非线性反馈率/>：

。

其中，和/>均为预设的参数，/>为预设的积分步长。

。

其中，和/>为预设的决定补偿强弱的补偿因子。

最后应当说明的是：本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种海洋平台动力定位控制方法，其特征在于，包括以下步骤：

步骤1：获取海洋平台当前时刻的状态：

；

步骤2：构建并训练基于SAC算法的强化学习模型，将所述状态输入所述强化学习模型，基于所述状态/>构建海洋平台动态环境下的奖励函数/>；

步骤3：使用所述强化学习模型设计海洋平台动力定位的参考轨迹序列，并使用所述奖励函数引导SAC算法的智能体自适应地修正环境干扰导致的参考轨迹设计误差，通过最大化动作熵提高所述SAC算法中随机策略的探索能力和自适应能力，获得状态/>下的对海洋平台的最优控制策略，并输出状态/>下所述海洋平台动力定位的最佳参考轨迹序列/>；

步骤4：将所述最佳参考轨迹序列作为标准控制信号输入至自抗扰控制器，所述自抗扰控制器基于所述最佳参考轨迹序列/>和海洋平台当前时刻的状态/>计算获得控制量/>，将所述控制量/>作为推进器的输入信号输入至推进器，驱动所述推进器牵引海洋平台沿所述最佳参考轨迹序列/>移动至所述最佳参考轨迹序列/>中的目标位置。

2.根据权利要求1所述的海洋平台动力定位控制方法，其特征在于，所述步骤2具体包括以下步骤：

基于所述状态分别构建t时刻对位移和艏向偏移的奖励函数/>、对非平稳运行的奖励函数/>以及对运动时间的奖励函数/>，并进一步计算获得总体奖励函数/>，所述总体奖励函数/>的表达式为：

；

其中，和/>均为权重系数。

3.根据权利要求2所述的海洋平台动力定位控制方法，其特征在于，构建对位移、艏向偏移的奖励函数的方法包括以下步骤：

。

4.根据权利要求2所述的海洋平台动力定位控制方法，其特征在于，构建对非平稳运行的奖励函数的方法包括以下步骤：

基于t时刻海洋平台的艏向角和t时刻海洋平台所处的位置/>确定海洋/>平台的整体倾角η；

基于所述整体倾角η构建t时刻对非平稳运行的奖励函数：

。

5.根据权利要求2所述的海洋平台动力定位控制方法，其特征在于，构建对运动时间的奖励函数的方法包括以下步骤：

设置运动时间奖励系数；

构建对运动时间的奖励函数：

；

其中，为海洋平台开始运动的时刻。

6.根据权利要求1-5任意一项所述的海洋平台动力定位控制方法，其特征在于，所述步骤3具体包括以下步骤：

其中，t时刻的状态为，且，t时刻的动作为/>，且，/>为t时刻海洋平台的位置变化量；/>为t时刻海洋平台的艏向变化量；t时刻在状态/>下执行控制动作/>获得的即时奖励为/>；

步骤3.2：构建策略网络π，用于实现输入状态并输出动作/>；

步骤3.3：设置所述强化学习模型迭代的最大回合数；

步骤3.5：获取t时刻的状态；

步骤3.7：构建经验对，并将其存储至所述经验回放池D；

步骤3.8：从所述经验回放池D中随机抽取N个经验对，更新Q网络参数、目标网络参数、策略网络参数和熵函数；

步骤3.9：更新当前状态，赋值，/>；

步骤3.10：重复步骤3.5-步骤3.9，直至迭代次数达到所述最大回合数，输出状态下海洋平台的最佳参考轨迹序列/>。

7.根据权利要求6所述的海洋平台动力定位控制方法，其特征在于，步骤3.8具体包括以下步骤：

步骤3.8.1：从所述经验回放池D中随机抽取N个经验对；

其中，为Q网络的参数，/>为Q网络更新参数，/>为目标函数的梯度，/>为Q网络更新的目标函数：

；

其中，为Q网络的状态-动作价值函数，/>为目标Q网络的状态-动作价值函数，/>为目标Q网络的参数；/>为从经验回放池D中抽取/>的情况下的数学期望；

步骤3.8.3：更新策略网络参数，；

采用重参数化方法，设置动作为/>；

确定策略网络π更新的目标函数的表达式为：

；

步骤3.8.4：更新SAC算法的熵函数；

最大化策略输出的动作熵：

；

其中，T为回合长度，为在当前状态和动作下t时刻的奖励函数，/>为SAC算法的熵系数，用于权衡期望奖励与动作熵的比例，/>为动作熵函数，/>为在当前状态和动作下的数学期望，所述动作熵函数为在/>下，选择动作/>的期望值，所述动作熵函数表达式为：

；

步骤3.8.5：更新目标网络参数，；

其中，为预设的更新参数，/>为在当前动作下的数学期望。

8.根据权利要求1或7所述的海洋平台动力定位控制方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1：安排海洋平台动力定位的过渡过程：

将所述最佳参考轨迹序列作为标准控制信号输入至自抗扰控制器，所述自抗扰控制器驱动推进器跟踪所述最佳参考轨迹序列/>，进行倾角与位置的调整；所述自抗扰控制器包括跟踪微分器、非线性状态反馈和扩张观测器；

构建用于控制所述自抗扰控制器的第一公式组：

；

其中，为过渡过程，/>为微分信号，/>为过渡过程/>与最佳参考轨迹序列/>的误差，/>为所述第一公式组的中间变量，/>为预设的积分步长，/>为预设的参数；/>为最速控制综合函数，/>为/>的微分形式，/>为/>的微分形式；

构建用于控制所述自抗扰控制器的第二公式组：

；

所述自抗扰控制器的跟踪微分器使用所述第一公式组安排过渡过程并提取所述过渡过程/>的微分信号/>，基于所述微分信号/>和所述第二公式组确定用于进行缓冲的最速控制综合函数/>；

步骤4.2：所述扩张观测器基于所述推进器的输入信号和输出信号/>计算所述推进器的运行状态/>和/>；

构建第三公式组：

；

其中，为作用于所述推进器的扰动估计值，/>为/>的微分形式，/>为/>的微分形式，为/>的微分形式，/>为估计值与实际运行状态值的估计误差，/>为相关参数，/>为一组调节参数，/>和/>函数为滤波器函数，且：

，

和/>均为影响滤波的常数；

所述扩张观测器基于所述第三公式组、所述运行状态和/>计算作用于所述推进器的扰动估计值/>；

步骤4.3：计算海洋平台动力定位控制系统的状态误差和/>；

其中，，/>；

基于状态误差和/>计算状态误差的非线性反馈率/>：

；

其中，和/>均为预设的参数，/>为预设的积分步长；

步骤4.4：使用所述扰动估计值对所述状态误差的非线性反馈率/>进行补偿，并基于海洋平台所受的外部海风冲击力/>、海浪冲击力/>和海流冲击力/>计算对所述推进器的最终控制量/>：

；

其中，和/>为预设的决定补偿强弱的补偿因子。