CN112835368A

CN112835368A - 一种多无人艇协同编队控制方法及系统

Info

Publication number: CN112835368A
Application number: CN202110012033.8A
Authority: CN
Inventors: 蒲华燕; 刘源; 罗均; 谢志江; 谢佳佳; 李小毛; 苏洲; 彭艳; 谢少荣
Original assignee: Chongqing University; University of Shanghai for Science and Technology
Current assignee: Chongqing University; University of Shanghai for Science and Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-25

Abstract

本发明公开了一种多无人艇协同编队控制方法及系统，涉及海洋智能无人艇协同作业领域，包括根据当前阶段无人艇团队执行的任务需求确定每个无人艇的编队形状生成模型和编队形状维持模型；确定当前时刻无人艇团队的执行阶段；当无人艇团队处于编队形状生成阶段时获取第一状态信息，将第一状态信息输入编队形状生成模型中以获取执行动作并执行，直至无人艇团队的航行形状生成为任务需求对应的编队形状；当无人艇团队处于编队形状维持阶段时获取第二状态信息，将第二状态信息输入编队形状维持模型中以获取执行动作并执行，直到无人艇团队的航行形状维持为任务需求对应的编队形状。本发明解决了现有多无人艇协同编队实时性差、不稳定、效率低等问题。

Description

一种多无人艇协同编队控制方法及系统

技术领域

本发明涉及海洋智能无人艇协同作业领域，特别是涉及一种多无人艇协同编队控制方法及系统。

背景技术

多无人艇系统的高性能和高效率促进了无人艇在民用领域和军事领域的进一步应用。与单个无人艇相比，多无人艇系统具有较强的适应性和容错性。多无人艇系统组成的编队可以在航行期间形成动态网络，通过分区与合作，每个无人艇都可以快速、准确地感知到该地区的环境信息，从而加速完成任务并提高系统效率。特别是，编队控制是多无人艇系统协同控制的最基本问题，必须采取集体计划以确保多无人艇系统内的无人艇共同完成一项任务并在时间和空间上进行协调。目前，现有多无人艇协同编队存在实时性差，不稳定，效率低等问题。

发明内容

本发明的目的是提供一种多无人艇协同编队控制方法及系统，旨在解决现有多无人艇协同编队实时性差、不稳定、效率低等问题。

为实现上述目的，本发明提供了如下方案：

一种多无人艇协同编队控制方法，包括：

获取当前阶段无人艇团队执行的任务需求；

根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型；所述无人艇团队包括多个无人艇，分别为一个领航艇和多个跟随艇；所述编队形状生成模型是根据第一训练样本和优势深层确定性策略梯度网络结构训练得到；所述编队形状维持模型是根据第二训练样本和优势深层确定性策略梯度网络结构训练得到；

确定当前时刻所述无人艇团队的执行阶段；所述执行阶段包括编队形状生成阶段和编队形状维持阶段；

当所述无人艇团队处于所述编队形状生成阶段时，获取当前时刻每个所述无人艇对应的第一状态信息；所述第一状态信息包括当前无人艇的位置信息和速度信息，以及其他无人艇的位置信息和速度信息；

将每个所述无人艇对应的第一状态信息输入到相应的所述编队形状生成模型中以获取下一时刻每个无人艇的第一执行动作，并将所述第一执行动作发送至无人艇的执行结构以获取下一时刻的第一状态信息，直至所述无人艇团队的航行形状生成为所述任务需求对应的编队形状；

当所述无人艇团队处于所述编队形状维持阶段时，获取当前时刻每个所述跟随艇对应的第二状态信息；所述第二状态信息包括所述领航艇的位置信息和速度信息，以及当前跟随艇的位置信息和速度信息；

将每个所述跟随艇对应的所述第二状态信息输入到相应的所述编队形状维持模型以获取下一时刻每个跟随艇的第二执行动作，并将所述第二执行动作发送至跟随艇的执行结构以获取下一时刻的第二状态信息，直到所述无人艇团队的航行形状维持为所述任务需求对应的编队形状。

可选的，所述根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型，具体包括：

根据所述任务需求确定所述无人艇团队的编队形状；

根据所述无人艇团队的编队形状，确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型。

可选的，所述编队形状生成模型的构建过程为：

确定第一训练样本；所述第一训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻第一状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻第一状态信息；

构建优势深层确定性策略梯度网络结构；

将所述第一训练样本输入到所述优势深层确定性策略梯度网络结构中以对所述优势深层确定性策略梯度网络结构进行训练，进而得到编队形状生成模型。

可选的，所述确定第一训练样本，具体包括：

获取每个无人艇自身搭载的传感器采集的第t时刻自身位置信息和第t时刻自身速度信息，以及所述无人艇团队内其他无人艇的第t时刻其他位置信息和第t时刻其他速度信息；

将所述第t时刻自身位置信息、所述第t时刻自身速度信息、所述第t时刻其他位置信息和所述第t时刻其他速度信息合并为第t时刻第一状态信息；

获取每个无人艇自身搭载的传感器采集的第t时刻执行动作；

根据所述任务需求对应的编队形状确定每个无人艇的第t时刻奖励；

获取每个无人艇自身搭载的传感器采集的第t+1时刻自身位置信息和第t+1时刻自身速度信息，以及所述无人艇团队内其他无人艇的第t+1时刻其他位置信息和第t+1时刻其他速度信息；

将所述第t+1时刻自身位置信息、所述第t+1时刻自身速度信息、所述第t+1时刻其他位置信息和所述第t+1时刻其他速度信息合并为第t+1时刻第一状态信息；

构成第t时刻样本集合，并将所述第t时刻样本集合存储在共享经验重播缓冲区内；所述第t时刻样本集合包括第t时刻第一状态信息，第t时刻执行动作，第t时刻奖励以及第t+1时刻第一状态信息；

当所述存储在共享经验重播缓冲区内的数据达到设定数量后停止存储；停止存储后的所述存储在共享经验重播缓冲区内的数据为第一训练样本。

可选的，所述根据所述任务需求对应的编队形状确定每个无人艇的第t时刻奖励，具体包括：

根据公式

和r₂＝-c₁计算第i个无人艇的第t时刻奖励；

其中，第i个无人艇的第t时刻奖励为r₁+r₂，

为编队形状中第i个无人艇的第t时刻编队节点n_j位置，

为第i个无人艇的第t时刻实际位置，

为第i个无人艇的第t时刻实际位置与第t时刻编队节点n_j位置之间的欧氏距离，c₁为常数。

可选的，所述编队形状维持模型的构建过程为：

确定第二训练样本；所述第二训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻第二状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻第二状态信息；

构建优势深层确定性策略梯度网络结构；

将所述第二训练样本输入到所述优势深层确定性策略梯度网络结构中以对所述优势深层确定性策略梯度网络结构进行训练，进而得到编队形状维持模型。

可选的，所述确定第二训练样本，具体包括：

获取每个跟随艇自身搭载的传感器采集的第t时刻自身位置信息和第t时刻自身速度信息，以及领航艇的第t时刻领航位置信息和第t时刻领航速度信息；

将所述第t时刻自身位置信息、所述第t时刻自身速度信息、所述第t时刻领航位置信息和所述第t时刻领航速度信息合并为第t时刻第二状态信息；

获取每个跟随艇自身搭载的传感器采集的第t时刻执行动作；

根据所述任务需求对应的编队形状确定每个跟随艇的第t时刻奖励；

获取每个跟随艇自身搭载的传感器采集的第t+1时刻自身位置信息和第t+1时刻自身速度信息，以及领航艇的第t+1时刻领航位置信息和第t+1时刻领航速度信息；

将所述第t+1时刻自身位置信息、所述第t+1时刻自身速度信息、所述第t+1时刻领航位置信息和所述第t+1时刻领航速度信息合并为第t+1时刻第二状态信息；

构成第t时刻样本集合，并将所述第t时刻样本集合存储在共享经验重播缓冲区内；所述第t时刻样本集合包括第t时刻第二状态信息，第t时刻执行动作，第t时刻奖励以及第t+1时刻第二状态信息；

当所述存储在共享经验重播缓冲区内的数据达到设定数量后停止存储；停止存储后的所述存储在共享经验重播缓冲区内的数据为第二训练样本。

可选的，所述根据所述任务需求对应的编队形状确定每个跟随艇的第t时刻奖励，具体包括：

根据公式r_3,t＝-|H′_i,t-H_i,t|计算第i个跟随艇的第t时刻奖励；

其中，第i个跟随艇的第t时刻奖励为r_3,t，H′_i,t为第i个跟随艇的第t时刻实际位置与领航艇的第t时刻实际位置之间的距离，H_i,t是第i个跟随艇的第t时刻目标位置与领航艇的第t时刻实际位置之间的距离。

一种多无人艇协同编队控制系统，包括：

任务需求获取模块，用于获取当前阶段无人艇团队执行的任务需求；

编队形状生成模型和编队形状维持模型确定模块，用于根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型；所述无人艇团队包括多个无人艇，分别为一个领航艇和多个跟随艇；所述编队形状生成模型是根据第一训练样本和优势深层确定性策略梯度网络结构训练得到；所述编队形状维持模型是根据第二训练样本和优势深层确定性策略梯度网络结构训练得到；

执行阶段确定模块，用于确定当前时刻所述无人艇团队的执行阶段；所述执行阶段包括编队形状生成阶段和编队形状维持阶段；

第一状态信息获取模块，用于当所述无人艇团队处于所述编队形状生成阶段时，获取当前时刻每个所述无人艇对应的第一状态信息；所述第一状态信息包括当前无人艇的位置信息和速度信息，以及其他无人艇的位置信息和速度信息；

编队形状生成模块，用于将每个所述无人艇对应的第一状态信息输入到相应的所述编队形状生成模型中以获取下一时刻每个无人艇的第一执行动作，并将所述第一执行动作发送至无人艇的执行结构以获取下一时刻的第一状态信息，直至所述无人艇团队的航行形状生成为所述任务需求对应的编队形状；

第二状态信息获取模块，用于当所述无人艇团队处于所述编队形状维持阶段时，获取当前时刻每个所述跟随艇对应的第二状态信息；所述第二状态信息包括所述领航艇的位置信息和速度信息，以及当前跟随艇的位置信息和速度信息；

编队形状维持模块，用于将每个所述跟随艇对应的所述第二状态信息输入到相应的所述编队形状维持模型以获取下一时刻每个跟随艇的第二执行动作，并将所述第二执行动作发送至跟随艇的执行结构以获取下一时刻的第二状态信息，直到所述无人艇团队的航行形状维持为所述任务需求对应的编队形状。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种多无人艇协同编队控制方法及系统，本发明通过训练样本和优势深层确定性策略梯度算法确定不同任务需求的编队形状生成模型和编队形状维持模型；当执行任务时，根据当前任务需求和当前执行阶段，实时调取相同的模型，以使无人艇团队生成或维持相应的编队形状，显然本发明解决了现有多无人艇协同编队实时性差、不稳定、效率低等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多无人艇协同编队控制方法的流程示意图；

图2为本发明多无人艇协同编队控制系统的结构示意图；

图3为本发明编队生成策略示意图；

图4为本发明编队维护策略示意图；

图5为本发明ADDPG网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种多无人艇协同编队控制方法及系统，旨在解决现有多无人艇协同编队实时性差、不稳定、效率低等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明利用强化学习方法来获取领航艇跟随拓扑中的多无人艇系统的编队控制与异步编队控制方案。

实施例一

如图1所示，本实施例提供了一种多无人艇协同编队控制方法，包括如下步骤。

步骤101：获取当前阶段无人艇团队执行的任务需求。

步骤102：根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型；所述无人艇团队包括多个无人艇，分别为一个领航艇和多个跟随艇；所述编队形状生成模型是根据第一训练样本和优势深层确定性策略梯度网络结构训练得到；所述编队形状维持模型是根据第二训练样本和优势深层确定性策略梯度网络结构训练得到。

步骤103：确定当前时刻所述无人艇团队的执行阶段；所述执行阶段包括编队形状生成阶段和编队形状维持阶段。

步骤104：当所述无人艇团队处于所述编队形状生成阶段时，获取当前时刻每个所述无人艇对应的第一状态信息；所述第一状态信息包括当前无人艇的位置信息和速度信息，以及其他无人艇的位置信息和速度信息。

步骤105：将每个所述无人艇对应的第一状态信息输入到相应的所述编队形状生成模型中以获取下一时刻每个无人艇的第一执行动作，并将所述第一执行动作发送至无人艇的执行结构以获取下一时刻的第一状态信息，直至所述无人艇团队的航行形状生成为所述任务需求对应的编队形状。

步骤106：当所述无人艇团队处于所述编队形状维持阶段时，获取当前时刻每个所述跟随艇对应的第二状态信息；所述第二状态信息包括所述领航艇的位置信息和速度信息，以及当前跟随艇的位置信息和速度信息。

步骤107：将每个所述跟随艇对应的所述第二状态信息输入到相应的所述编队形状维持模型以获取下一时刻每个跟随艇的第二执行动作，并将所述第二执行动作发送至跟随艇的执行结构以获取下一时刻的第二状态信息，直到所述无人艇团队的航行形状维持为所述任务需求对应的编队形状。

作为一种优选的实施方式，本实施例提供的步骤102具体包括：

根据所述任务需求确定所述无人艇团队的编队形状。

作为一种优选的实施方式，本实施例中的编队形状生成模型的构建过程为：

确定第一训练样本；所述第一训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻第一状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻第一状态信息。

构建优势深层确定性策略梯度网络结构。

其中，所述确定第一训练样本，具体包括：

获取每个无人艇自身搭载的传感器采集的第t时刻自身位置信息和第t时刻自身速度信息，以及所述无人艇团队内其他无人艇的第t时刻其他位置信息和第t时刻其他速度信息。

将所述第t时刻自身位置信息、所述第t时刻自身速度信息、所述第t时刻其他位置信息和所述第t时刻其他速度信息合并为第t时刻第一状态信息。

获取每个无人艇自身搭载的传感器采集的第t时刻执行动作。

根据所述任务需求对应的编队形状确定每个无人艇的第t时刻奖励。

获取每个无人艇自身搭载的传感器采集的第t+1时刻自身位置信息和第t+1时刻自身速度信息，以及所述无人艇团队内其他无人艇的第t+1时刻其他位置信息和第t+1时刻其他速度信息。

将所述第t+1时刻自身位置信息、所述第t+1时刻自身速度信息、所述第t+1时刻其他位置信息和所述第t+1时刻其他速度信息合并为第t+1时刻第一状态信息。

构成第t时刻样本集合，并将所述第t时刻样本集合存储在共享经验重播缓冲区内；所述第t时刻样本集合包括第t时刻第一状态信息，第t时刻执行动作，第t时刻奖励以及第t+1时刻第一状态信息。

所述根据所述任务需求对应的编队形状确定每个无人艇的第t时刻奖励，具体包括：

根据公式

和r₂＝-c₁计算第i个无人艇的第t时刻奖励。

式中，第i个无人艇的第t时刻奖励为r₁+r₂，

为编队形状中第i个无人艇的第t时刻编队节点n_j位置，

为第i个无人艇的第t时刻实际位置，

作为一种优选的实施方式，本实施例中的编队形状维持模型的构建过程为：

确定第二训练样本；所述第二训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻第二状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻第二状态信息。

构建优势深层确定性策略梯度网络结构。

其中，所述确定第二训练样本，具体包括：

获取每个跟随艇自身搭载的传感器采集的第t时刻自身位置信息和第t时刻自身速度信息，以及领航艇的第t时刻领航位置信息和第t时刻领航速度信息。

将所述第t时刻自身位置信息、所述第t时刻自身速度信息、所述第t时刻领航位置信息和所述第t时刻领航速度信息合并为第t时刻第二状态信息。

获取每个跟随艇自身搭载的传感器采集的第t时刻执行动作。

根据所述任务需求对应的编队形状确定每个跟随艇的第t时刻奖励。

获取每个跟随艇自身搭载的传感器采集的第t+1时刻自身位置信息和第t+1时刻自身速度信息，以及领航艇的第t+1时刻领航位置信息和第t+1时刻领航速度信息。

将所述第t+1时刻自身位置信息、所述第t+1时刻自身速度信息、所述第t+1时刻领航位置信息和所述第t+1时刻领航速度信息合并为第t+1时刻第二状态信息。

构成第t时刻样本集合，并将所述第t时刻样本集合存储在共享经验重播缓冲区内；所述第t时刻样本集合包括第t时刻第二状态信息，第t时刻执行动作，第t时刻奖励以及第t+1时刻第二状态信息。

所述根据所述任务需求对应的编队形状确定每个跟随艇的第t时刻奖励，具体包括：

根据公式r_3,t＝-|H′_i,t-H_i,t|计算第i个跟随艇的第t时刻奖励。

式中，第i个跟随艇的第t时刻奖励为r_3,t，H′_i,t为第i个跟随艇的第t时刻实际位置与领航艇的第t时刻实际位置之间的距离，H_i,t是第i个跟随艇的第t时刻目标位置与领航艇的第t时刻实际位置之间的距离。

实施例二

如图2所示，本实施例提供了一种多无人艇协同编队控制系统，包括：

任务需求获取模块201，用于获取当前阶段无人艇团队执行的任务需求。

编队形状生成模型和编队形状维持模型确定模块202，用于根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型；所述无人艇团队包括多个无人艇，分别为一个领航艇和多个跟随艇；所述编队形状生成模型是根据第一训练样本和优势深层确定性策略梯度网络结构训练得到；所述编队形状维持模型是根据第二训练样本和优势深层确定性策略梯度网络结构训练得到。

执行阶段确定模块203，用于确定当前时刻所述无人艇团队的执行阶段；所述执行阶段包括编队形状生成阶段和编队形状维持阶段。

第一状态信息获取模块204，用于当所述无人艇团队处于所述编队形状生成阶段时，获取当前时刻每个所述无人艇对应的第一状态信息；所述第一状态信息包括当前无人艇的位置信息和速度信息，以及其他无人艇的位置信息和速度信息。

编队形状生成模块205，用于将每个所述无人艇对应的第一状态信息输入到相应的所述编队形状生成模型中以获取下一时刻每个无人艇的第一执行动作，并将所述第一执行动作发送至无人艇的执行结构以获取下一时刻的第一状态信息，直至所述无人艇团队的航行形状生成为所述任务需求对应的编队形状。

第二状态信息获取模块206，用于当所述无人艇团队处于所述编队形状维持阶段时，获取当前时刻每个所述跟随艇对应的第二状态信息；所述第二状态信息包括所述领航艇的位置信息和速度信息，以及当前跟随艇的位置信息和速度信息。

编队形状维持模块207，用于将每个所述跟随艇对应的所述第二状态信息输入到相应的所述编队形状维持模型以获取下一时刻每个跟随艇的第二执行动作，并将所述第二执行动作发送至跟随艇的执行结构以获取下一时刻的第二状态信息，直到所述无人艇团队的航行形状维持为所述任务需求对应的编队形状。

实施例三

目前无人艇编队控制存在的主要问题是如何无碰撞地形成预定的编队形状并保持整体编队形状。针对上述问题，本实施例提供了一种基于强化学习的异步编队控制方案，即多无人艇协同编队控制方法，使多无人艇系统生成移动路径总长度最小的编队形状并维持编队形状。

本实施例提供的技术方案包括两部分：编队生成策略和编队维持策略。

在编队生成策略中，每个无人艇可以获取到所有无人艇的位置和速度以及目标编队位置(此位置是根据当前无人艇与其他无人艇之间的距离确定的)，然后学习基于成本函数的编队生成策略，以使无人艇通过一系列最佳操作快速组成编队形状，如图3所示。

在编队维持策略中，无人艇团队中只有一艘领航艇具有观测能力，可以获得无人艇团队内其他无人艇的位置信息和速度信息，且这艘领航艇还会通过与其他无人艇通讯方式将自身的位置、速度等信息分享给无人艇团队内的其他无人艇。无人艇团队内的其他无人艇会根据这些信息生成相应的策略来快速组成或维持整个无人艇编队形状。

本实施例采用一种优势深层确定性策略梯度(ADDPG)算法来训练得到编队形状生成模型和编队形状维持模型。

编队形状生成模型可以根据当前时刻输入的状态信息s_i生成编队生成策略集

编队形状维持模型可以根据当前时刻输入的状态信息s_i生成编队维持策略集

其中，μ表示整个无人艇团队的策略集合，

表示无人艇团队内的每一个无人艇的编队生成策略，

表示无人艇团队内的每一个无人艇的编队维持策略。

对于每个无人艇，状态信息s_i包含该无人艇的速度信息和位置信息，以及其他无人艇的速度信息和位置信息。编队形状生成模型和编队形状维持模型的输出是每一个无人艇的执行动作a_i。

奖励函数r₁定义为无人艇实际位置与编队形状中无人艇目标位置的最小距离。如果在编队形状控制过程中无人艇之间发生碰撞，则会给出碰撞惩罚，即负奖励值r₂。

收集无人艇团队中所有无人艇的经验值

其中，t代表采集数据的时刻，i表示无人艇。将其存储在共享经验重播缓冲区Δ中，并用于训练ADDPG网络结构以得到编队形状生成模型和编队形状维持模型。

第一奖励函数的计算公式为：

负奖励值的计算公式为：r2＝-c1；

第二奖励函数的计算公式为：r₃＝-|H′_i-H_i|；

其中，

为编队形状中编队节点n_j的位置，即无人艇目标位置，可以通过导线的预定位置和编队形状矩阵F_s中的参数来计算。

是无人艇实际位置与编队节点位置之间的欧氏距离。c₁是一个正常数。H′_i是第i个跟随艇实际位置与领航艇实际位置之间的距离，H_i是第i个跟随艇目标位置与领航艇实际位置之间的距离。当生成编队形状时使用r₁和r₂，当维持编队形状使用r₃。

ADDPG网络结构如图5所示。受深度Q学习算中目标网络的启发，引入目标网络和行为者批评范式，以解决连续动作和动作值估计更新，并提高学习的稳定性。因此，ADDPG网络结构中有四个神经网络，评论器网络用于训练状态值网络以近似状态操作的值，包括当前评论网络和目标评论网络，它们分别是带有参数θ^V和θ^V′的多层感知器(MLP)。行动网络用于训练编队策略，以输出在当前状态下应采取的行动，包含当前行动网络和目标行动网络，分别带有参数θ^μ和θ^μ′。主要网络的参数θ^V′和θ^μ′使用的是θ^V和θ^μ先前迭代中的参数。使用优势函数来评估状态下每个动作的相对优势，并加快对策略的学习。基于优势函数的行动者部分使用DDPG(深度确定性策略梯度算法)，评论者部分使用TD(时序差分方法)来更新参数。在训练期间，无人艇团队中的每个无人艇都有独立的网络，这些网络具有不同的参数，并且针对其编队控制策略进行了独立的优化。

具体实施步骤如下：

步骤1：无人艇团队内的每一个无人艇都会利用自身搭载的传感器观察自身的位置信息和速度信息，以无人艇团队内其他无人艇的其他的位置信息和速度信息，并将上述信息合并为状态信息s_i。

步骤2：收集无人艇团队内所有无人艇的经验值

并将其存储在共享经验重播缓冲区Δ中，在共享经验重播缓冲区Δ中的数据达到一定的数量后开始对AADPG网络结构进行训练，进而得到编队形状生成模型和编队形状维持模型。

步骤3：无人艇团队内的每一个无人艇都会将采集到的信息转化为状态信息s_i输入给编队形状生成模型，编队形状生成模型可以根据状态信息s_i来输出相应的动作a_i，从而得到编队形状生成策略集合

来使整个无人艇团队快速组成编队，如图4所示。

步骤4：当无人艇团队里只有一艘领航艇具有观测能力且可以获得无人艇团队内其他无人艇的位置信息和速度信息时，这艘领航艇会通过与其他无人艇通讯方式将自己的位置、速度等信息分享给无人艇团队内的其他无人艇。无人艇团队内的其他无人艇将采集到的信息转化为状态信息s_i输入给编队形状维持模型，编队形状维持模型可以根据状态信息s_i来输出相应的动作a_i，从而得到策略集合

来维持整个无人艇编队，如图2所示。

本发明具有以下有益效果：

(1)本发明可以使多无人艇系统学习到有效的编队策略。

(2)与传统的编队算法相比，本发明的编队的准确性和稳定性更高。

(3)本发明属于实时更新的学习算法，具有实时在线学习能力，可以根据不同的任务情况学习到不同的编队策略，大大提高了多无人艇的协同编队能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多无人艇协同编队控制方法，其特征在于，包括：

获取当前阶段无人艇团队执行的任务需求；

2.根据权利要求1所述的一种多无人艇协同编队控制方法，其特征在于，所述根据所述任务需求确定当前阶段所述无人艇团队内每个无人艇所需的编队形状生成模型和编队形状维持模型，具体包括：

根据所述任务需求确定所述无人艇团队的编队形状；

3.根据权利要求1所述的一种多无人艇协同编队控制方法，其特征在于，所述编队形状生成模型的构建过程为：

构建优势深层确定性策略梯度网络结构；

4.根据权利要求3所述的一种多无人艇协同编队控制方法，其特征在于，所述确定第一训练样本，具体包括：

获取每个无人艇自身搭载的传感器采集的第t时刻执行动作；

5.根据权利要求4所述的一种多无人艇协同编队控制方法，其特征在于，所述根据所述任务需求对应的编队形状确定每个无人艇的第t时刻奖励，具体包括：

根据公式

和r2＝-c1计算第i个无人艇的第t时刻奖励；

其中，第i个无人艇的第t时刻奖励为r1+r2，

为编队形状中第i个无人艇的第t时刻编队节点n_j位置，

为第i个无人艇的第t时刻实际位置，

6.根据权利要求1所述的一种多无人艇协同编队控制方法，其特征在于，所述编队形状维持模型的构建过程为：

构建优势深层确定性策略梯度网络结构；

7.根据权利要求6所述的一种多无人艇协同编队控制方法，其特征在于，所述确定第二训练样本，具体包括：

获取每个跟随艇自身搭载的传感器采集的第t时刻执行动作；

8.根据权利要求7所述的一种多无人艇协同编队控制方法，其特征在于，所述根据所述任务需求对应的编队形状确定每个跟随艇的第t时刻奖励，具体包括：

9.一种多无人艇协同编队控制系统，其特征在于，包括：