CN117093010B

CN117093010B - 水下多智能体路径规划方法、装置、计算机设备和介质

Info

Publication number: CN117093010B
Application number: CN202311360750.5A
Authority: CN
Inventors: 任勇; 李宗霖; 杜军; 米唯实; 李劭辉; 李徵; 侯向往; 门伟; 王子源
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-01-19
Anticipated expiration: 2043-10-20
Also published as: CN117093010A

Abstract

本申请涉及一种水下多智能体路径规划方法、装置、计算机设备和介质。所述方法包括：将水下机器人当前时刻的状态空间输入预设模型，得到所述水下机器人下一时刻的速度；所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；控制所述水下机器人按照所述下一时刻的速度进行移动；根据所述水下机器人当前的总移动步数、预设步数，控制所述水下机器人的移动路径。采用本方法能够提高水下多智能体路径规划的准确性。

Description

水下多智能体路径规划方法、装置、计算机设备和介质

技术领域

本申请涉及机器人技术领域，特别是涉及一种水下多智能体路径规划方法、装置、计算机设备和介质。

背景技术

在机器人领域中，水下多智能体路径规划是研究机器人自主决策技术的重要内容。水下多智能体路径规划的研究内容通常包括基于单个机器人、固定目标位置和障碍下的水下多智能体路径规划，也包括部分动态情况下等传统水下多智能体路径规划。

传统技术中，对机器人进行水下多智能体路径规划时，准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高水下多智能体路径规划准确性的水下多智能体路径规划方法、装置、计算机设备和介质。

第一方面，本申请提供了一种水下多智能体路径规划方法。所述方法包括：

将水下机器人当前时刻的状态空间输入预设模型，得到所述水下机器人下一时刻的速度；所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；

控制所述水下机器人按照所述下一时刻的速度进行移动；

根据所述水下机器人当前的总移动步数、预设步数，控制所述水下机器人的移动路径。

在其中一个实施例中，所述根据所述水下机器人当前的总移动步数、预设步数，控制所述水下机器人的移动路径，包括：

若所述水下机器人当前的总移动步数达到所述预设步数，则控制所述水下机器人停止移动；

若所述水下机器人当前的总移动步数未达到所述预设步数，且所述水下机器人到达目标点，则控制所述水下机器人停止移动；

若所述水下机器人当前的总移动步数未达到所述预设步数，且所述水下机器人未到达所述目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。

在其中一个实施例中，所述将水下机器人当前时刻的状态空间输入预设模型，得到所述水下机器人下一时刻的速度，包括：

将所述水下机器人当前时刻的状态空间输入至所述预设模型中的多智能体强化学习模型中，得到所述水下机器人当前时刻的动作空间；所述动作空间包括所述水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度；

根据所述人工势场模型及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度；

根据所述水下机器人沿三个坐标轴方向的加速度、所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，得到所述水下机器人下一时刻的速度。

在其中一个实施例中，所述根据所述人工势场模型及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，包括：

根据所述水下机器人的引力场、斥力场、额外引力场，构建所述人工势场模型；

根据所述人工势场模型，得到所述水下机器人在所述人工势场模型下受到的合力；

根据所述合力及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度。

在其中一个实施例中，所述根据所述水下机器人沿三个坐标轴方向的加速度及所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，得到所述水下机器人下一时刻的速度，包括：

将所述水下机器人沿三个坐标轴方向的加速度、所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到所述水下机器人的目标加速度；

根据所述水下机器人当前时刻的状态空间及所述水下机器人的目标加速度，得到所述水下机器人下一时刻的速度。

在其中一个实施例中，所述方法还包括：

将所述水下机器人的第t时刻的状态空间样本输入至所述预设多智能体强化学习模型中的策略网络，得到第t时刻的动作空间样本；

利用所述预设多智能体强化学习模型中的Q网络，对所述水下机器人执行第t时刻的动作空间样本的执行结果进行评价，得到所述水下机器人第t时刻的实际奖励值；

基于第t时刻的实际奖励值和目标函数，得到所述策略网络的第一新参数，采用所述第一新参数对所述策略网络进行更新；

根据同一时刻下各所述水下机器人的状态空间样本的集合、同一时刻下所述水下机器人的动作空间样本、同一时刻下的实际奖励值及损失函数，得到所述Q网络的第二新参数，采用所述第二新参数对所述Q网络进行更新。

第二方面，本申请还提供了一种水下多智能体路径规划装置。所述装置包括：

预测模块，用于将水下机器人当前时刻的状态空间输入预设模型，得到所述水下机器人下一时刻的速度；所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；

控制模块，用于控制所述水下机器人按照所述下一时刻的速度进行移动；

路径控制模块，用于根据所述水下机器人当前的总移动步数、预设步数，控制所述水下机器人的移动路径。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。

上述水下多智能体路径规划方法、装置、计算机设备和介质，由于预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的，显然，预设模型结合了预设多智能体强化学习模型及人工势场模型这两个模型的技术优势，相比传统方法中，只用单个模型对水下机器人进行路径规划的精度要更高。因而，用预设模型对水下机器人进行路径规划时，准确度也就更高。

附图说明

图1为一个实施例中水下多智能体路径规划方法的应用环境图；

图2为一个实施例中水下多智能体路径规划方法的流程示意图；

图3为一个实施例中虚拟目标点的示意图；

图4为一个实施例中一种预设模型的训练方法的流程示意图；

图5为一个实施例中多个水下机器人的水下多智能体路径规划场景的示意图；

图6为一个实施例中预设模型的训练流程的示意图；

图7为一个示例性的实施例中一种水下多智能体路径规划方法的流程示意图；

图8为一个示例性的实施例中对水下机器人进行水下多智能体路径规划时的系统流程图；

图9为一个实施例中一种水下多智能体路径规划装置的示意图；

图10为一个实施例中服务器的内部结构图；

图11为一个实施例中终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的水下多智能体路径规划方法，可以应用于如图1所示的应用环境中。其中，计算机设备102将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度；预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；控制水下机器人按照下一时刻的速度进行移动；根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径。其中，计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中，如图2所示，提供了一种水下多智能体路径规划方法，以该方法应用于图1中的计算机设备102为例进行说明，包括以下步骤：

步骤202，将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度；预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的。

其中，预设多智能体强化学习模型可以是包括但不限于基于水下多智能体深度确定性策略梯度算法的多智能体强化学习模型，本实施例对此不作限定，这里的智能体即为水下机器人。人工势场模型是基于人工势场法建立的模型，人工势场法的基本思想是将机器人在周围环境中的运动，设计成一种抽象的人造引力场中的运动，目标点对移动机器人产生引力，障碍物对移动机器人产生斥力，最后通过求合力来控制移动机器人的运动。水下机器人当前时刻的状态空间包括水下机器人当前时刻的位置信息及速度信息。

可选地，将水下机器人当前时刻的状态空间输入到预设模型中的预设多智能体强化学习模型中，得到水下机器人下一时刻的预测速度，根据该预测速度及预设模型中的人工势场模型进行计算，得到水下机器人下一时刻的速度。

步骤204，控制水下机器人按照下一时刻的速度进行移动。

可选地，将水下机器人下一时刻的速度输入至水下机器人的控制系统中，使水下机器人按照该速度进行移动，即将水下机器人下一时刻的速度输入至水下机器人的控制系统中，使水下机器人移动一步。

步骤206，根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径。

其中，预设步数是人为设定的，预设步数大于或等于总移动步数。

可选地，根据水下机器人当前的总移动步数与预设步数大小关系，控制水下机器人的移动路径。若水下机器人当前的总移动步数等于预设步数，那么控制水下机器人停止移动，若水下机器人当前的总移动步数小于预设步数，那么将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度，控制水下机器人按照该速度进行移动。例如，当前时刻为t时刻，水下机器人当前的总移动步数为1900步，预设步数为2000步，1900小于2000，就将水下机器人(t+1)时刻的速度输入至水下机器人的控制系统中，使水下机器人移动一步，那么(t+1)时刻水下机器人的总移动步数为1901步，即每计算一次下一时刻的速度，则水下机器人对应移动一步。

上述水下多智能体路径规划方法中，将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度；预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；控制水下机器人按照下一时刻的速度进行移动；根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径。其中，预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的，显然，预设模型结合了预设多智能体强化学习模型及人工势场模型这两个模型的技术优势，相比传统方法中，只用单个模型对水下机器人进行路径规划的精度要更高。因而，用预设模型对水下机器人进行路径规划时，准确度也就更高。

在一个实施例中，根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径，包括：

首先，若水下机器人当前的总移动步数达到预设步数，则控制水下机器人停止移动。

可选地，假设水下机器人当前的总移动步数为2000步，预设步数为2000步，那么向水下机器人的控制系统发出停止移动的指令，使水下机器人停止移动。

然后，若水下机器人当前的总移动步数未达到预设步数，且水下机器人到达目标点，则控制水下机器人停止移动。

可选地，假设水下机器人当前的总移动步数为1900步，预设步数为2000步，且水下机器人到达目标点，那么向水下机器人的控制系统发出停止移动的指令，使水下机器人停止移动。

最后，若水下机器人当前的总移动步数未达到预设步数，且水下机器人未到达目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。

可选地，假设当前时刻为t时刻，水下机器人t时刻的总移动步数为1900步，预设步数为2000步，1900小于2000，且水下机器人未到达目标点，那么就将水下机器人t时刻的状态空间输入至预设模型中，得到(t+1)时刻水下机器人的速度，再将(t+1)时刻水下机器人的速度输入至水下机器人的控制系统中，使水下机器人移动一步，那么(t+1)时刻水下机器人的总移动步数为1901步。

本实施例中，若水下机器人当前的总移动步数达到预设步数，则控制水下机器人停止移动；若水下机器人当前的总移动步数未达到预设步数，且水下机器人到达目标点，则控制水下机器人停止移动；若水下机器人当前的总移动步数未达到预设步数，且水下机器人未到达目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。通过设定预设步数，一方面，避免了水下机器人因故障等原因持续移动、不会停止的情况，另一方面，设定预设步数可以确定水下机器人到达目标点的步数范围，为后续的模型进行再次训练提供参考，使得水下机器人的路径规划更为科学、合理。

在一个实施例中，将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度，包括：

首先，将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到水下机器人当前时刻的动作空间；动作空间包括水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度。

其中，假设水下机器人当前时刻的状态空间为，其中，P _i是水下机器人在世界坐标系中的三个坐标轴下的位置信息，包括P _x、P _y、P _z；P _ob是经过探测到的障碍物的位置信息，该位置信息不包括其他水下机器人的位置信息，设定探测范围内最多探测到的障碍物数量为五个，那么/>，每个P _obi均由三个坐标位置信息组成，即P _obx、P _oby、P _obz；P _others表示其它水下机器人的位置信息，且该位置信息由于水下机器人之间数据共享而不断保持已知；g _i表示目标点的位置信息，由g _x、g _y、g _z组成；θ _i、ψ _i分别表示水下机器人的纵倾角和偏航角；v _i表示水下机器人的速度，包括沿三个坐标轴的速度v _x、v _y、v _z。

可选地，将水下机器人当前时刻的状态空间s _i输入至预设模型中的多智能体强化学习模型中，得到水下机器人当前时刻的动作空间，其中，分别表示水下机器人沿三个坐标轴的加速度，/>表示水下机器人的纵倾角加速度，/>表示水下机器人的偏航角加速度，/>的数值范围在中，设定/>的范围是为了保证水下机器的运动受物理环境的限制，/>也存在预设的数值范围，但/>的数值范围与/>的数值范围不同。

然后，根据人工势场模型及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度。

可选地，假设根据人工势场模型得到水下机器人受到的合力为，水下机器人的质量为m，那么水下机器人在该合力下沿三个坐标轴的加速度为/>。

最后，根据水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度，得到水下机器人下一时刻的速度。

可选地，对水下机器人沿三个坐标轴方向的加速度及水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加和计算，得到水下机器人总的加速度，根据该总的加速度及水下机器人当前时刻的速度，得到水下机器人下一时刻的速度。

本实施例中，将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到水下机器人当前时刻的动作空间；动作空间包括水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度；根据人工势场模型及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度；根据水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度，得到水下机器人下一时刻的速度。通过将多智能体强化学习模型与人工势场模型相结合，综合了两种模型的优点，使得到的水下机器人下一时刻的速度更准确，基于更准确的下一时刻的速度对水下机器人进行控制，进而，提高了水下多智能体路径规划的准确性。

在一个实施例中，根据人工势场模型及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度，包括：

首先，根据水下机器人的引力场、斥力场、额外引力场，构建人工势场模型。

可选地，基于目标点对水下机器人的引力，构建水下机器人的引力场，目标点对水下机器人的引力的计算公式如公式（1）所示。

(1)

公式（1）中，k为引力系数，为当前时刻水下机器人沿三个坐标轴的坐标信息，为目标点沿三个坐标轴的坐标信息，/>是初始时刻水下机器人与目标点之间的距离，/>是当前时刻水下机器人与目标点之间的距离。

公式（1）保证了目标点对水下机器人的引力是逐渐衰减的，且始终是小于或者等于1模长的向量，便于引力系数的调整和选取。

基于障碍物对水下机器人的斥力，构建水下机器人的斥力场，障碍物对水下机器人的斥力对水下机器人的斥力的计算公式如公式（2）所示。

(2)

公式（2）中，为当前时刻水下机器人与障碍物之间的距离，r _safe为水下机器人与障碍物之间的安全半径，/>为斥力系数，/>表示当前时刻与水下机器人之间的距离小于安全距离的障碍物对水下机器人的斥力的和，随着的减小，该斥力呈非线性增加，使水下机器人远离障碍物。

由于传统的人工势场法对水下机器人进行多智能体路径规划时常常会使水下机器人陷入局部稳定点，当水下机器人陷入局部稳定点时，水下机器人所受的引力与斥力相等，此时，水下机器人的受力平衡，在没有引入外力的情况下，水下机器人的位置会固定在某一点，不再继续移动。

为了避免水下机器陷入局部稳定点，引入虚拟目标点来为水下机器人添加额外引力场。设定阈值F _th，当障碍物对水下机器人的斥力与目标点对水下机器人的引力两者的合力满足，当两者的合力接近阈值F _th时，设置虚拟目标点，该虚拟目标点的坐标由障碍物的坐标绕水下机器人的坐标旋转得到，虚拟目标点的示意图如图3所示，额外引力即为该虚拟目标点对水下机器人的引力，额外引力的计算公式如公式（3）所示。

(3)

公式（3）中，k为引力系数，为当前时刻水下机器人沿三个坐标轴的坐标信息，为虚拟目标点沿三个坐标轴的坐标信息，/>是初始时刻水下机器人与目标点之间的距离，/>是当前时刻水下机器人与虚拟目标点之间的距离。

然后，根据人工势场模型，得到水下机器人在人工势场模型下受到的合力。

可选地，在人工势场模型中，水下机器人受到目标点的引力、虚拟目标点的额外引力、障碍物的斥力，将水下机器人受到的目标点的引力、虚拟目标点的额外引力、障碍物的斥力三者进行加和，得到水下机器人在人工势场模型下受到的合力，合力的计算公式如公式（4）所示。

(4)

公式（4）中，为目标点对水下机器人的引力，/>为虚拟目标点对水下机器人的额外引力，/>为障碍物对水下机器人的斥力，/>为水下机器人在人工势场模型下受到的合力。

最后，根据合力及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度。

可选地，假设水下机器人的质量为m，基于公式（4）求得的水下机器人在人工势场模型下受到的合力，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度为。

本实施例中，根据水下机器人的引力场、斥力场、额外引力场，构建人工势场模型；根据人工势场模型，得到水下机器人在人工势场模型下受到的合力；根据合力及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度。通过引入额外引力场，避免水下机器人陷入局部稳定点，提高了多智能体路径规划的准确性。

在一个实施例中，根据水下机器人沿三个坐标轴方向的加速度及水下机器人在人工势场模型下沿三个坐标轴方向的加速度，得到水下机器人下一时刻的速度，包括：

首先，将水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到水下机器人的目标加速度。

可选地，假设水下机器人沿三个坐标轴方向的加速度为，水下机器人在人工势场模型下沿三个坐标轴方向的加速度为/>，对水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到水下机器人的目标加速度，加权求和的计算公式如公式（5）所示。

(5)

公式（5）中，为加权系数，的计算公式如公式（6）所示。

(6)

公式（6）中，ep为迭代次数，max ep为最大迭代次数，迭代次数与最大迭代次数均为人为设定。当迭代次数达达到最大迭代次数时，，此时，人工势场模型对水下机器人的目标加速度的影响最小，预设多智能体强化学习模型对水下机器人的目标加速度的影响最大，即此时水下机器人的目标加速度的大小主要取决于预设多智能体强化学习模型。

然后，根据水下机器人当前时刻的状态空间及水下机器人的目标加速度，得到水下机器人下一时刻的速度。

可选地，假设水下机器人当前时刻的速度为v _i=(v _x,v _y,v _z)，根据公式（5），得到水下机器人的目标加速度，根据公式（7），得到水下机器人下一时刻的速度相对于当前时刻水下机器人的速度的增量。

(7)

将公式（7）计算得到的水下机器人下一时刻的速度相对于当前时刻水下机器人的速度的增量与水下机器人当前时刻的速度进行加和，得到水下机器人下一时刻的速度。

本实施例中，将水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到水下机器人的目标加速度；根据水下机器人当前时刻的状态空间及水下机器人的目标加速度，得到水下机器人下一时刻的速度。其中，将水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，综合考虑了人工势场模型与多智能体强化学习模型的技术优势，使得求得的目标加速度更为准确，提高了水下多智能体路径规划的准确性。

在一个实施例中，提供了一种预设模型的训练方法，流程如图4所示，该方法包括：

步骤402，将水下机器人的第t时刻的状态空间样本输入至预设多智能体强化学习模型中的策略网络，得到第t时刻的动作空间样本。

可选地，建立多个水下机器人的路径规划场景，该场景的示意图如图5所示。其中，x、y、z为三个坐标轴，φ、θ、ψ分别为水下机器人的横倾角、纵倾角和偏航角，该场景中包括编号为的水下机器人，图9中用AUV1、AUVi…AUVN表示水下机器人1、水下机器人i…水下机器人N，编号为/>的目标点，即图9中的目标点1、目标点i…目标点N，及由/>构成的若干数量的障碍物。因为整个场景为三维水下环境，所以该场景下的所有位置坐标均为三维坐标。设定该场景中的障碍物为半径为R _c的球形障碍物，该场景中的障碍物在同一次迭代训练中的数量与位置是固定的，但在不同次迭代训练中，该场景中的障碍物的位置是可变的。此外，设定/>为多个水下机器人/>的最优路径，/>即为图9中的路径1、路径2…路径N。

假设水下机器人的第t时刻的状态空间样本为ο _i，将ο _i输入至预设多智能体强化学习模型中的策略网络中，得到第t时刻的动作空间样本a _i。

步骤404，利用预设多智能体强化学习模型中的Q网络，对水下机器人执行第t时刻的动作空间样本的执行结果进行评价，得到水下机器人第t时刻的实际奖励值。

可选地，水下机器人执行第t时刻的动作空间样本a _i，预设多智能体强化学习模型中的Q网络对水下机器人执行第t时刻的动作空间样本a _i的执行结果进行评价，得到实际奖励值r _i，r _i的计算公式如公式（8）所示。

(8)

公式（8）中，为水下机器人与目标点之间的距离的奖励，/>为水下机器人与其它物体之间的距离的奖励，/>为水下机器人的边界奖励，/>为水下机器人的碰撞奖励。这里的其它物体包括其它水下机器人及障碍物。

水下机器人与目标点之间的距离的奖励的计算公式如公式（9）所示。

(9)

公式（9）中，表示水下机器人当前时刻与目标点之间的距离。

水下机器人与其它物体之间的距离的奖励的计算公式如公式（10）所示。

(10)

公式（10）中，表示水下机器人当前时刻与其它物体之间的距离，/>表示如果在一定范围内水下机器人周围有多个其它物体，则需要对水下机器人与所有其它物体的距离值进行指数化后，再进行求和，r _safe表示安全半径，如果水下机器人与其它物体的距离大于安全半径，则可不考虑其它物体对水下机器人的影响。

水下机器人的边界奖励的计算公式如公式（11）所示。

，P _i不在指定场景内 (11)

公式（11）表示，当水下机器人移动到水下多智能体路径规划场景外时，给予-1的奖励。

水下机器人的碰撞奖励的计算公式如公式（12）所示。

(12)

公式（12）中，R _goal为水下机器人与目标点之间的人工设定半径，R _coll为水下机器人与障碍物之间的人工设定半径。当水下机器人与目标点之间的距离小于或者等于R _goal时，认为水下机器人与目标点发生了碰撞，给与1的奖励；当水下机器人与障碍物之间的距离/>小于或者等于R _coll时，认为水下机器人与障碍物发生了碰撞，给予-1的奖励。其中，水下机器人与障碍物之间的距离/>并不是水下机器人的坐标与障碍物的坐标之间的距离，因为水下机器呈现类潜艇姿态，同时引入了俯仰角和偏航角信息，所以需要将水下机器人视为线段，计算障碍物到该线段的最短距离后再减去障碍物的半径得到水下机器人与障碍物之间的距离/>。

步骤406，基于第t时刻的实际奖励值和目标函数，得到策略网络的第一新参数，采用第一新参数对策略网络进行更新。

可选地，假设为所有水下机器人的策略集合，并由策略网络的参数的集合/>进行拟合。在第t时刻，水下机器人执行完成动作空间a _i后，与水下多智能体路径规划场景交互后得到新的状态空间样本ο ^’与实际奖励值r _i，将组合加入经验回放池，其中/>表示第t时刻的状态空间样本，将经验回放池中的多个组合作为采样样本输入至目标函数中，以对策略网络进行更新。

其中，策略网络为Actor网络，由多层感知器MLP构成，包含三层全连接层的神经网络，输入层为当前水下机器人的状态空间样本，隐藏层为64×64维度，输出层为64×5维度，输出为动作空间中沿三坐标系方向的加速度、纵倾角加速度、偏航角加速度；此外，输入层和隐藏层采用Leaky ReLU作为激活函数，以便处理负输入，以便保持梯度、缓解梯度消失；输出层采用tanh激活函数。

针对第i个水下机器人，它的目标函数如公式（13）所示。

(13)

公式（13）中，γ为折扣因子，为第t时刻的实际奖励值，/>表示联合状态空间样本s采用策略集合π，/>表示动作空间样本a _i采用策略/>，J(θ _i)为目标函数，E表示期望。

对公式（13）求梯度，得到公式（14）。

(14)/>

公式（14）中，表示单个水下机器人的状态空间样本，/>为联合状态空间样本，表示Q网络的输入为所有水下机器人的动作空间样本、状态空间样本，/>表示联合状态空间样本s采用策略集合π，/>表示动作空间样本a _i采用策略/>，E表示期望，/>表示在状态空间样本/>下选择动作空间样本a _i对应的策略。

根据公式（14）计算得到策略网络的第一新参数θ _i，采用θ _i对策略网络进行更新。

步骤408，根据同一时刻下各水下机器人的状态空间样本的集合、同一时刻下水下机器人的动作空间样本、同一时刻下的实际奖励值及损失函数，得到Q网络的第二新参数，采用第二新参数对Q网络进行更新。

可选地，假设同一时刻下各水下机器人的状态空间样本的集合为ο，同一时刻下水下机器人的动作空间样本为a _i，同一时刻下的实际奖励值为r _i，损失函数的公式如公式（15）所示。

(15)

公式（15）中，y通过Critic网络对Q网络的Q值进行更新，表示联合状态空间样本s采用策略集合π，/>表示动作空间样本a _i采用策略/>，E表示期望，/>表示Q网络的输入为同一时刻下各水下机器人的状态空间样本的集合、同一时刻下水下机器人的动作空间样本，L(θ _i)为损失函数。y的计算公式如公式（16）所示。

其中，Critic网络与Actor网络的结构类似，同样由三层全连接的神经网络组成的MLP多层感知器。其中，输入层维度为联合状态空间样本+N×动作空间样本，即所有水下机器人的动作空间样本之和与联合状态空间的叠加。输出层的维度为64×1维，输出为Q值，该Q值用以评判策略网络的效果。

(16)

公式（16）中，γ为折扣因子，为下一时刻各水下机器人的状态空间样本的集合，为下一时刻水下机器人的动作空间样本，r _i为同一时刻下的实际奖励值，/>表示Q网络的输入为下一时刻各水下机器人的状态空间样本的集合、下一时刻水下机器人的动作空间样本。

根据公式（15），得到Q网络的第二新参数，即Q网络的Q值，采用该Q值对Q网络进行更新。

策略网络的更新及Q网络的更新是预设多智能体强化学习模型训练的重要环节，结合上述步骤，得到预设模型的训练流程，如图6所示。

第一步，将水下机器人第t时刻的状态空间样本输入至预设多智能体强化学习模型中的策略网络中，得到水下机器人第t时刻的动作空间样本。

第二步，基于第t时刻的实际奖励值和目标函数，得到策略网络的第一新参数，采用第一新参数对策略网络进行更新。

第三步，根据第t时刻下各水下机器人的状态空间样本的集合、第t时刻下水下机器人的动作空间样本、第t时刻下的实际奖励值及损失函数，得到Q网络的第二新参数，采用第二新参数对Q网络进行更新。

第四步，根据第t时刻的动作空间样本中的水下机器人沿三个坐标轴方向的加速度及水下机器人在人工势场模型下沿三个坐标轴方向的加速度，得到水下机器人第(t+1)时刻的速度。

第五步，控制水下机器人按照第(t+1)时刻的速度进行移动。

第六步，水下机器人完成移动后，其状态空间样本更新，得到第(t+1)时刻的状态空间样本。

第七步，判断水下机器人当前的总移动步数是否达到预设步数。

第八步，若水下机器人当前的总移动步数达到预设步数，则控制水下机器人停止移动。

第九步，若水下机器人当前的总移动步数未达到预设步数，且水下机器人到达目标点，则控制水下机器人停止移动。

第十步，若水下机器人当前的总移动步数未达到预设步数，且水下机器人未到达目标点，则返回执行第一步。

第十一步，循环执行第一步到第十步，水下机器人每停止移动一次记为一次迭代，当迭代次数等于预设迭代次数时，得到第一模型。

第十二步，在第一模型中引入噪声干扰项，进行二次训练，得到预设模型。

本实施例中，将水下机器人的第t时刻的状态空间样本输入至预设多智能体强化学习模型中的策略网络，得到第t时刻的动作空间样本；利用预设多智能体强化学习模型中的Q网络，对水下机器人执行第t时刻的动作空间样本的执行结果进行评价，得到水下机器人第t时刻的实际奖励值；基于第t时刻的实际奖励值和目标函数，得到策略网络的第一新参数，采用第一新参数对策略网络进行更新；根据同一时刻下各水下机器人的状态空间样本的集合、同一时刻下水下机器人的动作空间样本、同一时刻下的实际奖励值及损失函数，得到Q网络的第二新参数，采用第二新参数对Q网络进行更新。其中，通过更新策略网络、Q网络，使策略网络输出的动作空间样本更优。进而，使用基于更新后的策略网络、更新后的Q网络得到的预设模型进行水下多智能体路径规划时，规划的路径更优，当水下机器人按照更优的规划路径进行移动时，就能更好地躲避其他水下机器人、障碍物。

在一个示例性的实施例中，提供了一种水下多智能体路径规划方法，流程如图7所示，包括：

步骤701，将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到水下机器人当前时刻的动作空间；动作空间包括水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度。

步骤702，根据水下机器人的引力场、斥力场、额外引力场，构建人工势场模型。

步骤703，根据人工势场模型，得到水下机器人在人工势场模型下受到的合力。

步骤704，根据合力及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度。

步骤705，将水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到水下机器人的目标加速度。

步骤706，根据水下机器人当前时刻的状态空间及水下机器人的目标加速度，得到水下机器人下一时刻的速度。

步骤707，控制水下机器人按照下一时刻的速度进行移动。

步骤708，若水下机器人当前的总移动步数达到预设步数，则控制水下机器人停止移动。

步骤709，若水下机器人当前的总移动步数未达到预设步数，且水下机器人到达目标点，则控制水下机器人停止移动。

步骤710，若水下机器人当前的总移动步数未达到预设步数，且水下机器人未到达目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。

结合上述步骤，得到对水下机器人进行水下多智能体路径规划时的系统流程图，如图8所示。图8中，第一步，水下机器人通过自身的传感系统获取自身当前时刻的状态空间；第二步，将状态空间输入至预设模型中的多智能体强化学习模型中，得到水下机器人沿三个坐标轴方向的加速度；第三步，结合累加器及相关的接口函数对水下机器人沿三个坐标轴方向的加速度及水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权计算，得到水下机器人下一时刻的速度；第四步，将水下机器人下一时刻的速度输入至水下机器人的控制系统中进行求解计算，使水下机器人按照该速度进行移动；第五步，水下机器人移动后，状态空间随之更新；第六步，将更新后的状态空间执行第二步操作。同时，更新后的状态空间还会发送到水下机器人的通信系统中，通过该通信系统，水下机器人可获取周围其他水下机器人的状态空间。

上述水下多智能体路径规划方法，由于预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的，显然，预设模型结合了预设多智能体强化学习模型及人工势场模型这两个模型的技术优势，相比传统方法中，只用单个模型对水下机器人进行水下多智能体路径规划的精度要更高。因而，用预设模型对水下机器人进行路径规划时，准确度也就更高。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的水下多智能体路径规划方法的多智能体路径规划装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多智能体路径规划装置实施例中的具体限定可以参见上文中对于多智能体路径规划方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种水下多智能体路径规划装置900，包括：预测模块920、控制模块940和路径控制模块960，其中：

预测模块920，用于将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度；预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；

控制模块940，用于控制水下机器人按照下一时刻的速度进行移动；

路径控制模块960，用于根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径。

在一个实施例中，路径控制模块960，还用于：若水下机器人当前的总移动步数达到预设步数，则控制水下机器人停止移动；若水下机器人当前的总移动步数未达到预设步数，且水下机器人到达目标点，则控制水下机器人停止移动；若水下机器人当前的总移动步数未达到预设步数，且水下机器人未到达目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。

在一个实施例中，预测模块920，还用于：将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到水下机器人当前时刻的动作空间；动作空间包括水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度；根据人工势场模型及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度；根据水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度，得到水下机器人下一时刻的速度。

在一个实施例中，预测模块920，还用于：根据水下机器人的引力场、斥力场、额外引力场，构建人工势场模型；根据人工势场模型，得到水下机器人在人工势场模型下受到的合力；根据合力及水下机器人的质量，得到水下机器人在人工势场模型下沿三个坐标轴方向的加速度。

在一个实施例中，预测模块920，还用于：将水下机器人沿三个坐标轴方向的加速度、水下机器人在人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到水下机器人的目标加速度；根据水下机器人当前时刻的状态空间及水下机器人的目标加速度，得到水下机器人下一时刻的速度。

在一个实施例中，预测模块920，还用于：将水下机器人的第t时刻的状态空间样本输入至预设多智能体强化学习模型中的策略网络，得到第t时刻的动作空间样本；利用预设多智能体强化学习模型中的Q网络，对水下机器人执行第t时刻的动作空间样本的执行结果进行评价，得到水下机器人第t时刻的实际奖励值；基于第t时刻的实际奖励值和目标函数，得到策略网络的第一新参数，采用第一新参数对策略网络进行更新；根据同一时刻下各水下机器人的状态空间样本的集合、同一时刻下水下机器人的动作空间样本、同一时刻下的实际奖励值及损失函数，得到Q网络的第二新参数，采用第二新参数对Q网络进行更新。

上述水下多智能体路径规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种水下多智能体路径规划方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种水下多智能体路径规划方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10和图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将水下机器人当前时刻的状态空间输入预设模型，得到水下机器人下一时刻的速度；预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；

控制水下机器人按照下一时刻的速度进行移动；

根据水下机器人当前的总移动步数、预设步数，控制水下机器人的移动路径。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

控制水下机器人按照下一时刻的速度进行移动；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

控制水下机器人按照下一时刻的速度进行移动；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种水下多智能体路径规划方法，其特征在于，所述方法包括：

将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到所述水下机器人当前时刻的动作空间；所述动作空间包括所述水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度；所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；所述水下机器人当前时刻的状态空间包括所述水下机器人当前时刻的位置信息及速度信息；

根据所述合力及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度；

根据所述水下机器人沿三个坐标轴方向的加速度、所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，得到所述水下机器人下一时刻的速度；

控制所述水下机器人按照所述下一时刻的速度进行移动；

2.根据权利要求1所述的方法，其特征在于，所述根据所述水下机器人当前的总移动步数、预设步数，控制所述水下机器人的移动路径，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述水下机器人沿三个坐标轴方向的加速度及所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，得到所述水下机器人下一时刻的速度，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.一种水下多智能体路径规划装置，其特征在于，所述装置包括：

预测模块，用于将水下机器人当前时刻的状态空间输入至预设模型中的多智能体强化学习模型中，得到所述水下机器人当前时刻的动作空间；所述动作空间包括所述水下机器人沿三个坐标轴方向的加速度、纵倾角加速度及偏航角加速度；所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的；所述水下机器人当前时刻的状态空间包括所述水下机器人当前时刻的位置信息及速度信息；根据所述水下机器人的引力场、斥力场、额外引力场，构建所述人工势场模型；根据所述人工势场模型，得到所述水下机器人在所述人工势场模型下受到的合力；根据所述合力及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度；根据所述水下机器人沿三个坐标轴方向的加速度、所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度，得到所述水下机器人下一时刻的速度；

6.根据权利要求5所述的装置，其特征在于，

所述预测模块，还用于根据所述水下机器人的引力场、斥力场、额外引力场，构建所述人工势场模型；根据所述人工势场模型，得到所述水下机器人在所述人工势场模型下受到的合力；根据所述合力及所述水下机器人的质量，得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度。

7.根据权利要求5所述的装置，其特征在于，

所述路径控制模块，还用于若所述水下机器人当前的总移动步数达到所述预设步数，则控制所述水下机器人停止移动；若所述水下机器人当前的总移动步数未达到所述预设步数，且所述水下机器人到达目标点，则控制所述水下机器人停止移动；若所述水下机器人当前的总移动步数未达到所述预设步数，且所述水下机器人未到达所述目标点，则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤。

8.根据权利要求5所述的装置，其特征在于，

所述预测模块，还用于将所述水下机器人沿三个坐标轴方向的加速度、所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度进行加权求和，得到所述水下机器人的目标加速度；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。