CN116048106B

CN116048106B - 一种多水下机器人自适应采样的海洋观测控制方法及装置

Info

Publication number: CN116048106B
Application number: CN202310082852.9A
Authority: CN
Inventors: 马小娟; 李静茹; 刘晓梅
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2024-04-12
Anticipated expiration: 2043-02-08
Also published as: CN116048106A

Abstract

本发明提供了一种多水下机器人自适应采样的海洋观测控制方法及装置，方法包括：初始化状态及网络参数；在某个机器人出水时，获取该机器人位置及已采样区域特征向量；对其他机器人当前位置进行估计，同时获取出水机器人出水距离的实际值；采用克里金方法进行海洋特征场估计；依据各机器人位置及海洋特征场估计形成状态组；将状态组、位置记忆、特征向量存储在记忆库；将重新赋值的状态组输入策略神经网络，输出机器人动作指令，判断神经网络参数是否更新，对各神经网络参数进行更新或进一步判断采样任务是否结束，并循环或结束。本发明使多水下机器人的采样控制具有自主学习和决策能力，降低了采样不确定性，实现了多机器人自适应协同采样控制。

Description

一种多水下机器人自适应采样的海洋观测控制方法及装置

技术领域

本发明属于水下机器人控制技术领域，特别涉及一种多水下机器人自适应采样的海洋观测控制方法及装置。

背景技术

海洋观测关系到海洋环境维护、开发海洋资源、维护国家安全等诸多方面，然而只有有限的原位观测资源可用于研究这一广阔的领域，随着多智能体强化学习技术的研究和应用，该技术也延伸拓展至水下机器人领域。但是，大多水下机器人缺乏一种高效的协同采样的数据收集控制方法。

目前水下机器人在海洋采样方面一般是采用固定路径、固定区域控制采样，也有不少学者进行了依据海洋场的估计而设计的采样策略。以上方法要么缺少自主性，要么缺少动态的学习性，也无法实现具有自主学习和自主决策的多机器人的协作采样，整体来看，采样效率较低。

发明内容

为了解决背景技术中的问题，本发明提供一种多水下机器人自适应采样的海洋观测控制方法及装置，可以实现水下机器人在编队容许误差约束下的自适应性采样，一方面自主实现自适应性采样控制，另外实现多水下机器人的协同采样。

本发明第一方面提供了一种多水下机器人自适应采样的海洋观测控制方法，包括以下步骤：

S1，设定水下机器人的初始位置，并初始化状态及各网络参数；其中，策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值；

S2，在第j个水下机器人出水时，通过与卫星通讯获取该机器人的位置P_j及已采样区域的特征向量z(x)；

S3，通过位置估计神经元网络对其他水下机器人的当前位置进行估计；同时计算获取第j个水下机器人出水距离的实际值D_j；

S4，结合第j个水下机器人出水时采样区域的特征向量z(x)，采用克里金方法进行海洋特征场估计；

S5，依据各水下机器人位置及海洋特征场估计形成状态组；

S6，将状态组、位置记忆、特征向量z(x)存储在记忆库；

S7，将s重新赋值s＝s′；

S8，将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围；

S9，判断神经网络参数是否更新；判断循环的次数是否大于设定的循环周期，若是则进入S10，若否则进入S11；

S10，对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新；

S11，判断采样任务是否结束，若是则结束，若否则进入S2。

优选的，所述S3的具体过程为：当第j个水下机器人出水时，计算第i个机器人出水距离的估计值其中i不为j，

i＝1,…,n，n指水下机器人总数量，W^t为神经网络权重矩阵，采用以往的数据集训练获得，a_i为水下机器人入水时的动作；

从而计算获取第i个水下机器人的当前位置

其中P_i0为水下机器人入水前位置，T_pi为水下机器人本次剖面在水下的时间，T_i为当前时刻与入水时刻的时间差；

所述计算获取第j个水下机器人出水距离的实际值D_j，为其当前位置减去其前一个出水位置得到的差值。

优选的，所述S4中采用克里金方法进行海洋特征场估计具体为：

海洋场在空间分布上具有一定的连续性和相关性，服从正态分布

其中C(x,x′)为海洋特征各点的协方差；依据克里金方法可得待估计点的特征向量z(x)的估计值为：

估计点的方差为：

其中x_i为待估计点，λ_i为对应第i个观测数据的克里金估计加权系数；F为观测点的基函数矩阵，F₀为待估计点的基函数矩阵，V为观测点之间的协方差向量，V₀为待估计点与观测点之间的协方差向量。

优选的，所述S5中的状态组为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角，/>为计算获取的n个水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种，g(X)为采样性能准则函数，

其中X是采样点位置，σ²[z(x_i|X)]是x_i处基于采样点X的克里金估计方差；

所述S6中的位置记忆集合为[φ,T,D]，D为n个水下机器人的出水距离的实际值。

优选的，所述S10中对各神经网络参数进行更新，具体过程如下：

设θ_a为第一策略神经网络的参数矩阵，θ_a为第二策略神经网络/>的参数矩阵，第二策略神经网络/>网络用于实现对评价网络的训练；

第一评价神经网络和第二评价神经网络/>组成评价网络，该网络输入为状态s、动作a，输出为值函数y；

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络参数更新：

第一评价神经网络的学习训练通过计算损失函数进行，L为损失函数，

其中，

L沿θ_c的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数。

本发明第二方面提供了一种多水下机器人自适应采样的海洋观测控制装置，所述装置包括：

初始化模块，用于设定水下机器人的初始位置，并初始化状态及各网络参数；其中，策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值；

获取模块，用于在第j个水下机器人出水时，通过与卫星通讯获取该机器人的位置P_j及已采样区域的特征向量z(x)；

位置估计模块，用于通过位置估计神经元网络对其他水下机器人的当前位置进行估计；同时计算获取第j个水下机器人出水距离的实际值Dj；

海洋特征场估计模块，用于结合第j个水下机器人出水时采样区域的特征向量z(x)，采用克里金方法进行海洋特征场估计；

状态转换模块，用于依据各水下机器人位置及海洋特征场估计形成状态组；

记忆库模块，用于将状态组、位置记忆、特征向量z(x)存储在记忆库；

重新赋值模块，用于将s重新赋值s＝s′；

动作策略模块，用于将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围；

第一判断模块，用于判断神经网络参数是否更新；判断循环的次数是否大于设定的循环周期，若是则进入网络参数更新模块，若否则进入第二判断模块；

网络参数更新模块，用于对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新；

第二判断模块，用于判断采样任务是否结束，若是则结束，若否则进入获取模块。

优选的，所述海洋特征场估计模块中，采用克里金方法进行海洋特征场估计具体为：

估计点的方差为：

优选的，所述网络参数更新模块进行网络参数更新的具体过程为：

设θ_a为第一策略神经网络的参数矩阵，θ′_a为第二策略神经网络/>的参数矩阵，第二策略神经网络/>网络用于实现对评价网络的训练；

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ′_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络参数更新：

其中，

L沿θ_c的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数。

优选的，所述状态转换模块中的状态组为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角,/>为计算获取的n个水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

所述记忆库模块中的位置记忆集合为[φ,T,D]，D为n个水下机器人的出水距离的实际值。

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行如第一方面所述的多水下机器人自适应采样的海洋观测控制方法。

与现有技术相比，本发明具有以下优点和有益效果：

本发明主要提供了一种基于深度学习的多水下机器人自适应采样的海洋观测控制方法及装置，使多水下机器人的采样控制具有自主学习和决策能力，降低了采样不确定性，实现了多机器人自适应协同采样控制，提高了采样的效率及稳定性。

本发明采用基于强化学习的自主和决策的机器人控制方法，通过使用单体机器人在复杂的海洋环境中获得的过往的控制经验，融合各个单体机器人学习所得知识，得到多机的采样控制策略，可以使多机器人在获取知识和训练的过程中，不断完善多机系统的性能和适应性以达到设定的有效采样目标。本发明可以实现高效的自适应采样，针对在空间和时间尺度上变化的海洋特征标量场，采用克里金方法对海洋特征场估计，以此设计优化的采样策略，并结合机器人控制方法实现更有效地采样。

附图说明

为了更清楚地说明本发明或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍，显而易见地，下面描述的仅仅是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明多水下机器人自适应采样的海洋观测控制方法的算法流程图。

图2为本发明多水下机器人自适应采样的海洋观测控制方法的通讯结构图。

图3为本发明多水下机器人强化学习的学习方式示意图。

图4为实施例1中多机器人强化学习采样控制器MLCS的结构示意图。

图5为本发明多水下机器人自适应采样的海洋观测控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的范围。

实施例1：

如图1所示，本发明提供了一种多水下机器人自适应采样的海洋观测控制方法，该控制方法可以嵌入在离岸控制系统内部。如图2所示为通讯结构图，每台水下机器人通过卫星与离岸控制中心交互，即通过卫星定位，控制中心得到每台水下机器人的状态，并通过卫星通讯发布每台机器人的控制指令。

该方法的学习方式采用集中学习方式。如图3所示，每个智能体与学习训练中心交互，由学习训练中心进行学习，并在任务执行时进行决策。本实施例中的学习训练中心优选的采用多机器人强化学习采样控制器MLCS(Multi-agent reinforcement learningcontroller for sampling)，其包含学习决策方法并嵌入在离岸控制中心内部，如图4所示。

下面结合图1对本发明一种多水下机器人自适应采样的海洋观测控制方法的过程进行展开说明。

步骤1，首先设定水下机器人的初始位置，并初始化状态及各网络参数，包括初始化状态、策略网络参数、评价网络参数、位置估计网络参数、队形范围、以观测点特征及协方差矩阵、位置估计神经网络、学习率、学习批次、记忆库容量参数等；其中，策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值。

步骤2，在第j个水下机器人出水时，通过与卫星通讯获取该机器人的位置P_j及已采样区域的特征向量z(x)。

步骤3，通过位置估计神经元网络对其他水下机器人的当前位置进行估计；当第j个水下机器人出水时，计算第i个水下机器人出水距离的估计值其中i不为j，

且即水下机器人出水距离的估计值用坐标x、y表示。

从而计算获取第i个水下机器人的当前位置

同时计算获取第j个水下机器人出水距离的实际值D_j，为其当前位置减去其前一个出水位置得到的差值。

步骤4，结合第j个水下机器人出水时采样区域的特征向量z(x)，采用克里金方法进行海洋特征场估计；

估计点的方差为：

步骤5，依据各水下机器人位置及海洋特征场估计形成状态组；状态组集合为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角，/>为计算获取的n水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

其中函数f(.)可以是阶梯函数、高斯函数或者线性函数，g(X)为采样性能准则函数，

其中X是采样点位置，σ²[z(x_i|X)]是x_i处基于采样点X的克里金估计方差。

步骤6，将状态组、位置记忆、特征向量z(x)存储在记忆库M中；位置记忆集合为[φ,T,D]，D为n个水下机器人的出水距离的实际值。

步骤7，将s重新赋值s＝s′，获得重新赋值的状态组集合。

步骤8，将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围；其中/>网络的输入为状态组，输出为动作，用于的动作选择。动作选择的约束条件为队形范围，

|P_i-P_j+d_ij|<α

其中d_ij∈R⁺为第i个与第j个机器人的期望距离，α∈R⁺，为容许距离范围。当获得当前状态，此网络输出动作，即智能决策的输出。

步骤9，判断神经网络参数是否更新；判断循环的次数Cycle是否大于设定的循环周期le，若是则进入步骤10，若否则进入步骤11。

步骤10，对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新，具体过程如下：

设θ_a为第一策略神经网络的参数矩阵，θ′a为第二策略神经网络/>的参数矩阵，第二策略神经网络/>网络用于实现对评价网络的训练；

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ′_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络

参数更新：

其中，

L沿θ_c的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数。

步骤11，判断采样任务是否结束，若是则结束，若否则进入步骤2。

上述方法可以实现水下机器人在编队容许误差约束下的自适应性采样，一方面自主实现自适应性采样控制，另外实现多机的协同采样。

基于上述方法，本实施例同时提供了一种多水下机器人自适应采样的海洋观测控制装置，如图5所示，装置包括：

初始化模块，用于设定水下机器人的初始位置，并初始化状态及各网络参数，包括初始化状态、策略网络参数、评价网络参数、位置估计网络参数、队形范围、以观测点特征及协方差矩阵、位置估计神经网络、学习率、学习批次、记忆库容量参数等；其中，策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值。

位置估计模块，用于通过位置估计神经元网络对其他水下机器人的当前位置进行估计；当第j个水下机器人出水时，计算第i个水下机器人出水距离的估计值其中i不为j，

且即水下机器人出水距离的估计值用坐标x、y表示。

从而计算获取第i个水下机器人的当前位置/>

海洋特征场估计模块，用于结合第j个水下机器人出水时采样区域的特征向量z(x)，采用克里金方法进行海洋特征场估计；具体为：

结合第j个水下机器人出水时采样区域的特征向量z(x)，采用克里金方法进行海洋特征场估计；

估计点的方差为：

状态转换模块，用于依据各水下机器人位置及海洋特征场估计形成状态组；依据各水下机器人位置及海洋特征场估计形成状态组；状态组集合为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角，/>为计算获取的n水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

重新赋值模块，用于将s重新赋值s＝s′；

动作策略模块，用于将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围；具体为：

将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围；其中/>网络的输入为状态组，输出为动作，用于的动作选择。动作选择的约束条件为队形范围，

|P_i-P_j+d_ij|<α

其中d_ij∈R⁺为第i个与第j个机器人的期望距离，α∈R⁺，为容许距离范围。当获得当前状态，此模块输出动作，即智能决策的输出。通过控制单元对水下机器人发送控制指令。

网络参数更新模块，用于对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新，具体过程如下：

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ′_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络参数更新：

其中，

L沿θ_a的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数。

实施例2：

本发明还提供了一种非易失性计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，计算机执行程序或指令被处理器执行时使处理器执行如实施例1所述的多水下机器人自适应采样的海洋观测控制方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多水下机器人自适应采样的海洋观测控制方法，其特征在于，包括以下步骤：

S5，依据各水下机器人位置及海洋特征场估计形成状态组；

S6，将状态组、位置记忆、特征向量z(x)存储在记忆库；

S7，将s重新赋值s＝s′；其中s为本循环状态，s′为当前状态；

S10，对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新；具体过程如下：

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ′_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络参数更新：

其中，

L沿θ_c的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数；

S11，判断采样任务是否结束，若是则结束，若否则进入S2。

2.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法，其特征在于，所述S3的具体过程为：当第j个水下机器人出水时，计算第i个机器人出水距离的估计值其中i不为j，

从而计算获取第i个水下机器人的当前位置

3.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法，其特征在于，所述S4中采用克里金方法进行海洋特征场估计具体为：

估计点的方差为：

4.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法，其特征在于：所述S5中的状态组为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角，/>为计算获取的n个水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

5.一种多水下机器人自适应采样的海洋观测控制装置，其特征在于，所述装置包括：

重新赋值模块，用于将s重新赋值s＝s′；其中s为本循环状态，s′为当前状态；

网络参数更新模块，用于对各神经网络参数进行更新；从记忆库中获取历史状态组数据，对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新；网络参数更新模块进行网络参数更新的具体过程为：

第一策略神经网络和第二策略神经网络/>参数更新：

按照梯度下降进行参数更新，其沿θ_a的梯度为

第一策略神经网络的网络参数θ_a以α_a的学习率进行更新，

第二策略神经网络网络参数θ′_a按照更新率τ更新，

θ′_a＝τθ_a+(1-τ)θ′_a

第一评价神经网络和第二评价神经网络/>网络参数更新：

其中，

L沿θ_c的梯度为

第一评价神经网络网络参数θ_c以α_c的学习率进行更新，

第二评价神经网络网络参数θ′_c按照更新率τ更新，

θ′_c＝τθ_c+(1-τ)θ′_c

其中，γ为折扣系数；

6.如权利要求5所述的一种多水下机器人自适应采样的海洋观测控制装置，其特征在于，所述海洋特征场估计模块中，采用克里金方法进行海洋特征场估计具体为：

估计点的方差为：

7.如权利要求5所述的一种多水下机器人自适应采样的海洋观测控制装置，其特征在于，所述状态转换模块中的状态组为[s,a,r,s′]；其中s为本循环状态，s′为当前状态，所述s及s′均由构成，φ是航向角,/>为计算获取的n个水下机器人的当前位置，n代表水下机器人的总数量；其中a是水下机器人入水时的动作，所述水下机器人的动作为航向角φ和螺旋桨转速T；其中r为综合奖励，

r＝f(g(X))

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行如权利要求1至权利要求4任意一项所述的多水下机器人自适应采样的海洋观测控制方法。