CN114967713B

CN114967713B - 基于强化学习的水下航行器浮力离散变化下的控制方法

Info

Publication number: CN114967713B
Application number: CN202210897366.8A
Authority: CN
Inventors: 李沂滨; 张悦; 庄英豪; 张天泽; 缪旭弘; 魏征
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-29
Anticipated expiration: 2042-07-28
Also published as: CN114967713A

Abstract

本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法，属于水下航行器控制领域，包括定义水下航行器浮力离散变化的上浮控制问题；建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型，将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标；构建策略‑评价网络：求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构，增加了一个当前评价网络和一个目标评价网络，使算法稳定性与收敛性更好，采用策略‑评价网络结构，将采集到的水下航行器状态信息作为系统输入，舵角指令为系统输出，实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

Description

基于强化学习的水下航行器浮力离散变化下的控制方法

技术领域

本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法，属于水下航行器控制技术领域。

背景技术

在海洋开发日益重要的现在，水下航行器越来越得到各个国家的重视，无论是在民用还是在军用上，都扮演着重要的角色。保证水下航行器的自主性与可控性是水下航行器控制的基本要求，也是最重要的功能。但由于水下航行器具有强耦合性、高度非线性等特点，在水下环境运行时又容易受到洋流等因素干扰，导致水下航行器的控制难度增大。

水下航行器控制包括路径跟踪控制、轨迹跟踪控制、上浮控制等。经典控制技术虽然取得了重大成就，但水下航行器复杂的操作条件和面临的恶劣水下环境对自主性与可控性的要求更高。水下航行器具有模型复杂、非线性与耦合性强、欠驱动的特点，当水下航行器遇到卡舵、推进器故障等问题时，使水下航行器在最短时间内上浮到水面的控制难度更大。深度强化学习具有强大的感知能力与决策能力，能自主适应恶劣的水下环境与水下航行器复杂的操作条件，面对不同的故障问题具有一定的自适应性，是实现水下航行器控制自主性与可控性的优选方法。

近年来，深度强化学习在处理很多具有挑战性的问题上表现出优异性能，如深度Q 网络（DQN）。但对于高维和连续动作空间的水下航行器的控制问题来说，DQN达不到控制要求，于是深度确定性策略梯度（Deep Deterministic policy gradient, DDPG）算法被提出。然而，DDPG存在与DQN存在相同的问题，即Q值（Q值代表智能体在状态s时，执行动作a后一直到最终状态奖励r总和的期望，其中

是Q值的具体体现之一）会被高估，于是在此基础上，双延迟深度确定性策略梯度（Twin Delayed Deep Deterministic policy gradient,TD3）算法被提出。

传统的TD3算法虽然在一定程度上解决了Q值被高估的问题，但稳定性和收敛性较差。

发明内容

针对现有技术的不足，本发明提供一种基于强化学习的水下航行器浮力离散变化下的控制方法，在TD3算法的基础上改进了网络结构，使算法稳定性与收敛性更好，本发明基于改进的TD3算法，采用策略-评价网络结构，将采集到的水下航行器状态信息作为系统输入，舵角指令为系统输出，实现水下航行器浮力离散变化条件下的上浮控制的自主性与可控性。

本发明采用以下技术方案：

一种基于强化学习的水下航行器浮力离散变化下的控制方法，包括如下步骤：

步骤1、定义水下航行器浮力离散变化的上浮控制问题包括四部分：确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标；

步骤2、建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型，将步骤1建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标；

步骤3、构建策略-评价网络：

通过构建两个策略网络和六个评价网络来选择最优策略

，进而选择最优动作

，达到离散动力下水下航行器上浮控制的目的；本发明在TD3算法的基础上增加了两个评价网络，以避免对动作价值的过估计；

（3-1）构建策略网络

通过构建策略网络来输出当前状态下的动作

，策略网络包括一个当前策略网络和一个目标策略网络，当前策略网络和目标策略网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络；输入层的输入为状态向量

，神经元个数为状态向量的维度；隐藏层神经元个数为512；输出层的输出为动作

，神经元个数为动作的维度；

隐藏层激活函数采用ReLu函数，输出层采用tanh函数，策略网络参数为

、

，其中

为当前策略网络参数，

为目标策略参数；

（3-2）构建评价网络

通过构建评价网络来输出当前动作对应的价值

；

评价网络包括三个当前评价网络和三个目标评价网络，三个当前评价网络和三个目标评价网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络，输入层的输入为状态向量

，神经元个数为状态向量的维度；隐藏层神经元个数为512，动作值

作为第一个隐藏层的输入；输出层的输出为动作对应的价值

，神经元个数为动作价值的维度；

隐藏层激活函数采用ReLu函数，输出层采用线性函数，评价网络参数为

，其中，

、

、

为当前评价网络参数，

、

、

为目标评价网络参数；

（3-3）确定目标策略

根据构建的策略-评价网络，将第t个时间步学习到的动作

作为输出；

步骤4、求解水下航行器的目标策略。

本发明在TD3的基础上，改进了TD3的网络结构，使算法稳定性与收敛性更好，解决了水下航行器高维连续动作空间的控制问题，实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

浮力离散变化是在水下航行器发生故障，比如推进器失能，无法为水下航行器提供动力时，使用紧急措施为水下航行器提供数值大小远超过自身重力的浮力，此时的浮力如图4所示，横坐标为时间t，纵坐标为浮力F，

代表最大的浮力值，方向垂直向上；F _G代表与重力大小相等的浮力值，方向垂直向上；0-t ₁、t ₂-t ₃时刻代表浮力持续时间，t ₁-t ₂为冷却时间。

优选的，步骤1的具体步骤如下：

（1-1）确定水下航行器系统输入

系统输入包括传感器信息

、由路径规划模块给出的参考位置信息

以及上一时间步的系统输出

；

其中，

为当前位置向量，

为当前的速度向量，包括线速度与角速度，

为当前的加速度向量，包括线加速度与角加速度，

为离散变化的浮力；

传感器包括陀螺仪、多普勒测速仪等，用来获取水下航行器的位姿、速度、推力信息，路径规划模块可集成在控制器中，用于给出参考位置信息，传感器、路径规划模块均为本领域的常规结构，上一时间步是指在控制器运行过程中，时间是离散的，每一个离散的时间单位在这里称为一个时间步；

（1-2）确定水下航行器系统输出

系统输出为

，其中

为水平舵舵角、

为垂直舵舵角；

（1-3）计算位置误差

位置误差

为（1-1）中传感器位置向量

与参考位置信息

的差值，

是水下航行器竖直水面上对应的坐标点；

当

时，则视为上浮成功；

（1-4）建立水下航行器浮力离散变化条件下的上浮控制目标

目标函数：

；

其中，γ为折扣因子，r为奖励函数，τ为系统输出，r为τ相关的函数，i代表第t个时间步之后的第i个时间步，水下航行器浮力离散变化条件下的上浮控制的目标是求解出最优的系统输出

，使目标函数

最大化。

优选的，步骤2的具体步骤如下：

（2-1）定义状态向量

状态向量为

；

（2-2）定义动作向量

定义第t个时间步的动作向量为第t时间步的系统输出

；

（2-3）定义奖励函数

定义第t个时间步的奖励函数为

，奖励函数代表在状态

时采取动作

所获得的奖励，根据水下航行器当前位置误差、与下一时刻的期望位置误差、输出动作、期望航向角、横倾角与横倾角速度设置奖励函数如下：

（1）

其中，

分别为各项的加权系数，

为横倾角，

为横倾角速度，

为上一时间步的水平舵舵角，

为上一时间步的垂直舵舵角；

（2-4）将建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标，具体的，定义策略π为在某一状态下选择各个可能动作的概率，定义动作值函数如下：

（2）

其中，

表示策略为π时对奖励函数、状态和动作的期望值；

水下航行器的浮力离散变化条件下的上浮控制目标为通过水下航行器与环境的交互来学习一个最优策略

，使得初始时刻的

最大；

于是，步骤（1-4）建立的水下航行器控制目标的求解转换为

的求解。

值得注意的是，步骤2建立的马尔科夫决策模型是建立控制方法的机制，并没有用到受控过程的数学模型，即马尔科夫决策模型不属于受控过程的数学模型。

优选的，步骤4的具体步骤如下：

（4-1）参数设置

采用Adam优化器，策略网络学习率为

，评价网络学习率为

，学习率是神经网络设置中的基础参数，策略网络学习率和评价网络学习率都代表了在梯度下降法中，使用损失函数的梯度调整网络参数的程度，学习率越大，对参数的调整越大，反之则对参数的调整越小；折扣因子为γ，调整因子为λ，最大训练步数T，软更新系数β，噪声ε，经验集

大小为D，批量选择的样本数m，当前策略网络更新间隔步数

，目标网络更新频率C；

（4-2）初始化策略-评价网络参数

随机初始化策略-评价网络参数

、

、

，构建经验集

，并初始化为空；

（4-3）迭代开始，对策略-评价网络进行训练，初始化迭代次数episode=1；

（4-4）设置当前时间步t=0，随机初始化水下航行器的状态变量

，令当前时间步的状态变量

；

（4-5）生成正态分布噪声

，根据策略网络得到当前时间步的输出动作，

，其中

代表策略网络的输出；

（4-6）水下航行器在当前状态

下执行动作

，根据步骤（2-3）得到即时奖励

，并观测到新的状态向量

，将收集的经验样本存入经验集

中

；

（4-7）如果当前时间步数小于10000，则重复步骤（4-5）与（4-6）以填充经验集，否则进入下一步骤；

（4-8）从经验集中采样m个样本

，计算目标评价网络目标Q值

：

（3）

其中，

代表目标策略网络，

代表目标策略网络在状态为

时的输出（

后面加括号，即括号里有参数时代表输出，没括号代表网络），

分别代表三个目标评价网络的输出；

（4-9）使用均方差损失函数

，其中，

分别代表三个当前评价网络的输出，通过神经网络的梯度反向传播来更新三个当前评价网络中的所有参数

、

、

：

（4）

其中，

代表求

关于

的梯度；

（4-10）如果

，其中，%代表求余符号，即

个时间步更新一次当前策略网络参数，使用损失函数：

（5）

通过神经网络的梯度反向传播来更新当前策略网络的参数

：

（6）

其中，

代表求

关于

的梯度；

（4-11）如果

，更新目标策略网络和三个目标评价网络中的参数：

（7）

（8）

（9）

（10）

（4-12）如果没有上浮成功，即

，则进入步骤（4-5），重复步骤（4-5）及后续的步骤；

如果上浮成功，即

，且

，则此回合结束，进入步骤（4-4），重复步骤（4- 4）及其后续步骤，进入下一回合；

如果时间步数

，即时间步数达到所设置的最大训练步数T，则整个训练结束，进入步骤（4-13）；

（4-13）迭代结束，将学习到的策略与评价网络作为控制网络，实现对水下航行器浮力离散变化条件下的上浮控制。

优选的，步骤（1-1）中，

的最大值为F _max，其中F _max=300N。

优选的，步骤（1-2）中水平舵舵角、垂直舵舵角的最大值均为±15°。

优选的，步骤（2-3）中，

。

优选的，步骤（4-1）中，折扣因子γ=0.99，调整因子为λ=0.9，最大训练步数T= 500000，软更新系数β=0.005，经验集

大小D=10000，批量选择的样本数m=256，当前策略网络更新间隔步数

，目标网络更新频率C=2。

本发明中未详尽之处，均可采用现有技术进行。

本发明的有益效果为：

（1）本发明提出了一种基于强化学习的水下航行器浮力离散变化下的控制方法，该方法采用一种策略-评价网络结构，用于水下航行器推进器故障，即推进器失能的情况下，将采集到原始传感器信息、参考位置信息、上一时刻的输出作为当前时刻系统输入，输出舵角指令，使水下航行器平稳上浮至水面，实现浮力离散变化条件下的水下航行器上浮控制；本发明针对的是水下航行器推进器故障的情况，使用一种浮力离散变化条件下的紧急挽救方式，使水下航行器快速且平稳地上浮至水面。使用深度强化学习方法，具有很好的自主性，可以拓展至不同紧急情况下的推进器故障问题。

（2）本发明中的控制方法中控制器的设计仅利用受控系统的输入输出数据，控制器中不包含受控过程的数学模型，即本发明的控制方法是无模型的，故不需要复杂的建模，而且可以很好地适用于强耦合性与强非线性特点的水下航行器；

（3）本发明针对TD3算法解决Q值高估问题进一步优化，与传统的TD3算法相比，本发明中算法增加了一个当前评价网络和一个目标评价网络，共两个评价网络。如公式（3）所示，对于目标评价网络中的

值而言，总会有高有低，高的值会有过估计的可能，本发明中对三个目标评价网络的

取最小值用于计算

，避免

变化过大，即更好地避免过估计，又由于计算得到的

用于当前评价网络的更新，当前评价网络的输出值用于当前策略网络更新，因此可以保证当前评价网络更新的稳定性，从而实现当前策略网络稳定更新，进而提高算法稳定性。

附图说明

图1为本发明的基于强化学习的水下航行器浮力离散变化下的控制方法框架示意图；

图2为策略网络结构示意图；

图3为评价网络结构示意图；

图4为浮力变化示意图；

图5为水下航行器所在的坐标系示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

一种基于强化学习的水下航行器浮力离散变化下的控制方法，因深度强化学习方法强大的自适应性，该方法适用于不同型号的水下航行器，只需在应用时重新修改参数设置即可，具体的，在模拟训练时直接将质量、长度、力系数、力矩转矩系数换成相应型号水下航行器的系数。

实施例1

一种基于强化学习的水下航行器浮力离散变化下的控制方法，本实施例以广泛使用的REMUS水下航行器为例进行说明，如图1所示，包括如下步骤：

步骤1、定义水下航行器浮力离散变化的上浮控制问题包括四部分：确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标，具体如下：

（1-1）确定水下航行器系统输入

系统输入包括传感器信息

、由路径规划模块给出的参考位置信息

以及上一时间步的系统输出

；

其中，

为当前位置向量，

为当前的速度向量，包括线速度与角速度，

为当前的加速度向量，包括线加速度与角加速度，

为离散变化的浮力，

的最大值为F _max，其中F _max=300N；

（1-2）确定水下航行器系统输出

系统输出为

，其中

为水平舵舵角、

为垂直舵舵角；水平舵舵角、垂直舵舵角的最大值均为±15°。

（1-3）计算位置误差

位置误差

为（1-1）中传感器位置向量

与参考位置信息

的差值，

是水下航行器竖直水面上对应的坐标点，如图5所示，

坐标系为固定的地理原点坐标系，

坐标系为随水下航行器运动的运动坐标系；

当

时，则视为上浮成功；

（1-4）建立水下航行器浮力离散变化条件下的上浮控制目标

目标函数：

；

，使目标函数

最大化。

步骤2、建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型

（2-1）定义状态向量

状态向量为

；

（2-2）定义动作向量

定义第t个时间步的动作向量为第t时间步的系统输出

；

（2-3）定义奖励函数

定义第t个时间步的奖励函数为

，奖励函数代表在状态

时采取动作

（1）

其中，

分别为各项的加权系数，

为横倾角，

为横倾角速度，

为上一时间步的水平舵舵角，

为上一时间步的垂直舵舵角；在本实施例中，

。

（2-4）将步骤（1-4）建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标，具体的，定义策略π为在某一状态下选择各个可能动作的概率，定义动作值函数如下：

（2）

其中，

表示策略为π时对奖励函数、状态和动作的期望值；

，使得初始时刻的

最大；

于是，步骤（1-4）建立的水下航行器控制目标的求解转换为

的求解。

步骤3、构建策略-评价网络：

通过构建两个策略网络和六个评价网络来选择最优策略

，进而选择最优动作

（3-1）构建策略网络

通过构建策略网络来输出当前状态下的动作

，神经元个数为动作的维度；

、

，其中

为当前策略网络参数，

为目标策略参数；

（3-2）构建评价网络

通过构建评价网络来输出当前动作对应的价值

；

，神经元个数为状态向量的维度；隐藏层神经元个数为 512，动作值

作为第一个隐藏层的输入；输出层的输出为动作对应的价值

，神经元个数为动作价值的维度；

，其中，

、

、

为当前评价网络参数，

、

、

为目标评价网络参数；

（3-3）确定目标策略

根据构建的策略-评价网络，将第t个时间步学习到的动作

作为输出。

步骤4、求解水下航行器的目标策略，具体步骤如下：

（4-1）参数设置

采用Adam优化器，策略网络学习率为

，评价网络学习率为

，学习率是神经网络设置中的基础参数，策略网络学习率和评价网络学习率都代表了在梯度下降法中，使用损失函数的梯度调整网络参数的程度，学习率越大，对参数的调整越大，反之则对参数的调整越小；折扣因子γ=0.99，调整因子λ=0.9，最大训练步数T=500000，软更新系数β=0.005，噪声ε，经验集

，目标网络更新频率C=2；

（4-2）初始化策略-评价网络参数

随机初始化策略-评价网络参数

、

、

，构建经验集

，并初始化为空；

，令当前时间步的状态变量

；

（4-5）生成正态分布噪声

，根据策略网络得到当前时间步的输出动作，

，其中

代表策略网络的输出；

（4-6）水下航行器在当前状态

下执行动作

，根据步骤（2-3）得到即时奖励

，并观测到新的状态向量

，将收集的经验样本存入经验集

中，

；

（4-8）从经验集中采样m个样本

，计算目标评价网络目标Q值

：

（3）

其中，

代表目标策略网络，

代表目标策略网络在状态为

时的输出（

分别代表三个目标评价网络的输出；

（4-9）使用均方差损失函数

，其中，

、

、

：

（4）

其中，

代表求

关于

的梯度；

（4-10）如果

，其中，%代表求余符号，即

个时间步更新一次当前策略网络参数，使用损失函数：

（5）

通过神经网络的梯度反向传播来更新当前策略网络的参数

：

（6）

其中，

代表求

关于

梯度；

（4-11）如果

，更新目标策略网络和三个目标评价网络中的参数：

（7）

（8）

（9）

（10）

（4-12）如果没有上浮成功，即

，则进入步骤（4-5），重复步骤（4-5）及后续的步骤；

如果上浮成功，即

，且

如果时间步数

如图1所示，S代表状态s集合，A代表动作a集合，R代表即时奖励r集合，

分别代表输入到目标策略网络中的状态、动作、即时奖励集合；

如图2为策略网络结构示意图，其中观察量为系统输入，舵角为系统输出；

如图3为评价网络结构示意图，动作值是从第一个隐藏层输入。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，包括如下步骤：

步骤1、定义水下航行器浮力离散变化的上浮控制问题，包括确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标；

步骤3、构建策略-评价网络：

（3-1）构建策略网络

通过构建策略网络来输出当前状态下的动作

，神经元个数为动作的维度；

、

，其中

为当前策略网络参数，

为目标策略参数；

（3-2）构建评价网络

通过构建评价网络来输出当前动作对应的价值

；

作为第一个隐藏层的输入；输出层的输出为动作对应的价值

，神经元个数为动作价值的维度；

，

，其中，

、

、

为当前评价网络参数，

、

、

为目标评价网络参数；

（3-3）确定目标策略

根据构建的策略-评价网络，将第t个时间步学习到的动作

作为输出；

步骤4、求解水下航行器的目标策略；

步骤1的具体步骤如下：

（1-1）确定水下航行器系统输入

系统输入包括传感器信息

、由路径规划模块给出的参考位置信息

以及上一时间步的系统输出

；

其中，

为当前位置向量，

为当前的速度向量，包括线速度与角速度，

为当前的加速度向量，包括线加速度与角加速度，

为离散变化的浮力；

（1-2）确定水下航行器系统输出

系统输出为

，其中

为水平舵舵角、

为垂直舵舵角；

（1-3）计算位置误差

位置误差

为（1-1）中传感器位置向量

与参考位置信息

的差值，

是水下航行器竖直水面上对应的坐标点，当

时，则视为上浮成功；

（1-4）建立水下航行器浮力离散变化条件下的上浮控制目标

目标函数：

；

其中γ为折扣因子，r为奖励函数，τ为系统输出，r为τ相关的函数，i代表第t个时间步之后的第i个时间步，水下航行器浮力离散变化条件下的上浮控制的目标是求解出最优的系统输出

，使目标函数

最大化。

2.根据权利要求1所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤2的具体步骤如下：

（2-1）定义状态向量

状态向量为

；

（2-2）定义动作向量

定义第t个时间步的动作向量为第t时间步的系统输出

；

（2-3）定义奖励函数

定义第t个时间步的奖励函数为

，奖励函数代表在状态

时采取动作

（1）

其中，

为各项的加权系数，

，

为横倾角，

为横倾角速度，

为上一时间步的水平舵舵角，

为上一时间步的垂直舵舵角；

（2-4）将建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标，具体的，定义策略

为在某一状态下选择各个可能动作的概率，定义动作值函数如下：

（2）

其中，

表示策略为

时对奖励函数、状态和动作的期望值；

，使得初始时刻的

最大；

于是，步骤（1-4）建立的水下航行器控制目标的求解转换为

的求解。

3.根据权利要求2所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤4的具体步骤如下：

（4-1）参数设置

采用Adam优化器，策略网络学习率为

，评价网络学习率为

；折扣因子为γ，调整因子为λ，最大训练步数T，软更新系数β，噪声ε，经验集

大小为D，批量选择的样本数m，当前策略网络更新间隔步数

，目标网络更新频率C；

（4-2）初始化策略-评价网络参数

随机初始化策略-评价网络参数

、

、

，

，构建经验集

，并初始化为空；

，令当前时间步的状态变量

；

（4-5）生成正态分布噪声

，根据策略网络得到当前时间步的输出动作，

，其中

代表策略网络的输出；

（4-6）水下航行器在当前状态

下执行动作

，根据步骤（2-3）得到即时奖励

，并观测到新的状态向量

，将收集的经验样本存入经验集

中，

；

（4-8）从经验集中采样m个样本

，计算目标评价网络目标Q值

：

（3）

其中，

代表目标策略网络，

代表目标策略网络在状态为

时的输出，

代表三个目标评价网络的输出，

；

（4-9）使用均方差损失函数

，其中

代表三个当前评价网络的输出，

，通过神经网络的梯度反向传播来更新三个当前评价网络中的所有参数

、

、

：

（4）

其中，

代表求

关于

的梯度；

（4-10）如果

，其中，%代表求余符号，即

个时间步更新一次当前策略网络参数，使用损失函数：

（5）

通过神经网络的梯度反向传播来更新当前策略网络的参数

：

（6）

其中，

代表求

关于

的梯度；

（4-11）如果

，更新目标策略网络和三个目标评价网络中的参数：

（7）

（8）

（9）

（10）

（4-12）如果没有上浮成功，即

，则进入步骤（4-5）；

如果上浮成功，即

，且

，则此回合结束，进入步骤（4-4），进入下一回合；

如果时间步数

，则训练结束，进入步骤（4-13）；

4.根据权利要求3所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤（1-1）中，

的最大值为F _max，其中F _max=300N。

5.根据权利要求4所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤（1-2）中水平舵舵角、垂直舵舵角的最大值均为±15°。

6.根据权利要求5所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤（2-3）中，

。

7.根据权利要求6所述的基于强化学习的水下航行器浮力离散变化下的控制方法，其特征在于，步骤（4-1）中，折扣因子γ=0.99，调整因子为λ=0.9，最大训练步数T=500000，软更新系数β=0.005，经验集

=2，目标网络更新频率C=2。