CN117606490B

CN117606490B - 一种水下自主航行器协同搜索路径规划方法

Info

Publication number: CN117606490B
Application number: CN202410089404.6A
Authority: CN
Inventors: 姜宇; 齐红; 徐岳龙; 张凯欣; 赵明浩; 王凯
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-05-14
Anticipated expiration: 2044-01-23
Also published as: CN117606490A

Abstract

本发明是一种水下自主航行器协同搜索路径规划方法。本发明涉及水下机器人的路径规划技术领域，本发明根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态。本发明通过运用多智能体强化学习的知识，获取一种水下自主航行器协同搜索路径规划方法。通过本申请提出的策略网络与价值网络，实时规划水下航行器的运动路径，提高航行器协同海洋目标搜索的平均搜索成功率，降低海洋目标搜索的平均搜索时间。

Description

一种水下自主航行器协同搜索路径规划方法

技术领域

本发明涉及水下机器人的路径规划技术领域，是一种水下自主航行器协同搜索路径规划方法。

背景技术

水下自主航行器是一种可以独立进行水下任务的无人机器人，其特点是具有较高的灵活性和适应性。与传统的有人潜水或有线控制机器人相比，水下自主航行器无需人员直接进入水下环境，可以在更长的时间范围内执行任务，并且可以完成更为复杂和多样化的任务。随着人工智能技术和传感器技术的不断发展，水下自主航行器已经成为海洋科学、资源勘探、海洋环境监测、水下作业等领域中的重要工具。

强化学习是一种机器学习方法，其目标是让智能体通过与环境的交互学习如何做出一系列决策，以使累积奖励最大化。在强化学习中，智能体根据环境的反馈不断调整自己的行为，从而逐步学习适应环境并达到既定的目标。

强化学习已经在多个领域取得了显著进展，特别是在游戏领域、机器人控制、金融交易等方面有着广泛的应用。近年来，随着深度学习技术的发展，深度强化学习成为强化学习领域的热点，通过结合深度神经网络和强化学习算法，取得了许多惊人的成果。在自主水下航行器目标搜索问题中，多智能体强化学习还没有产生完美的结果。

发明内容

本发明为克服现有技术的不足，本发明利用多智能体强化学习实现多航行器搜索路径规划，提高多智能体协同海洋目标搜索的平均搜索成功率，降低海洋目标搜索的平均搜索时间。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本发明提供了一种水下自主航行器协同搜索路径规划方法，本发明提供了以下技术方案：

一种水下自主航行器协同搜索路径规划方法，所述方法包括以下步骤：

步骤1、根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；

步骤2、使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；

步骤3、动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；

步骤4、重复步骤2、3直到航行器无法继续航行；

步骤5、将经验池中的数据输入到价值网络中进行学习，输出其价值，并优化其价值函数与策略函数；

步骤6、重复执行步骤2、3、4、5直至函数收敛；

步骤7、根据策略输出最优路径。

优选地，所述步骤1具体为：

步骤1.1：设置环境的初始特征，主要包括：航行器水下航行的水平面范围与垂直面范围，环境的最大模拟时间，航行器与环境交互的频率，航行器与搜索目标的最小距离，航行器的位置表示方法，定义其动作空间与观察空间；

步骤1.2：初始化环境，主要包括自主航行器的数量以及其初始位置、初始运行方向，搜索目标的数量以及相应的位置，重置航行器累计奖励以及航行器运行时间；

步骤1.3：返回航行器的当前状态，包括其位置、航行速度、与目标的估计距离。

优选地，所述步骤2具体为：

每个航行器的动作生成主要包括两个方面，第一个是策略网络根据观测值计算得到航行器的动作，第二个是从状态空间中随机采样产生，两个动作组按照一定的方法产生最终的动作，航行器开始运行时以随机产生的动作为主，经过策略网络训练，航行器的动作以策略网略产生的动作为主；

所有航行器的策略网络是由一个RNN网络控制，RNN网络一共包含4层，输入层、中间层、输出层、控制层，输出多个航行器的动作；

实现方式如下：

其中，i为观测值经过输入层得到的输入，表示输出动作，/>为航行器的观测值，/>表示隐藏状态，Fc(·)为输入层与输出层，由全连接层构成；RNN(·)为中间层，由神经网络构成；c(·)为控制层，由选择网络构成，/>，/>分别是输出动作/>的下界与上界。

优选地，所述步骤3具体为：

步骤3.1：将产生的动作输入到环境中，根据步骤1中的模型，产生下一时刻航行器的状态，主要包括位置坐标与航行方向与速度；

步骤3.2：根据航行器的当前状态，估计航行器与目标的相对位置距离以及航行方向，根据计算的相对位置判断航行器是否发生碰撞、是否超出航行范围、是否搜寻到目标，进行相应的奖励惩罚；

步骤3.3：将环境状态、航行器观测值、航行器动作、执行动作的奖励结果等信息记录在经验池中。

优选地，所述步骤4具体为：

根据步骤3.2航行器运行后的相对位置，判断航行器航行的次数是否达到预设值，是否发生碰撞、是否超出航行范围、是否搜寻到目标，若均为否，航行器继续航行，执行步骤2；若不均为否，航行器不能继续航行，执行步骤5。

优选地，所述步骤5具体为：

步骤5.1：从经验池中随机抽取一批动作，根据其记录的状态，运用策略网络，根据经验池中的状态与观测值，生成动作；

步骤5.2：将经验池的当前状态生成的动作与下一状态生成的动作输入价值函数中，得到选择价值与目标价值，并其损失计算公式：

其中，为每一步的奖励，/>为学习率，/>表示目标是否完成任务情况，/>表示选择价值，/>表示目标价值，/>为下一状态情况下获取到的目标值，/>为时序差分的误差，/>为损失函数。[a1]

优选地，所述步骤6具体为：

所述步骤6具体包括：

若航行器运动的总步数达到最大值，或策略函数与价值函数已经收敛，停止训练，保存模型，否则执行步骤2。

一种基于多智能体强化学习的水下自主航行器协同搜索路径规划系统，所述系统包括：

仿真模块，所述仿真模块根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；

网络模块，所述网络模块使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；

观测模块，所述观测模块动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；直到航行器无法继续航行；

优化模块，所述优化模块将经验池中的数据输入到价值网络中进行学习，输出其价值，并优化其价值函数与策略函数；

收敛模块，重复直至函数收敛；

策略输出模块，所述策略输出模块根据策略输出最优路径。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现一种水下自主航行器协同搜索路径规划方法。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种水下自主航行器协同搜索路径规划方法。

本发明具有以下有益效果：

本发明与现有技术相比：

本发明通过运用多智能体强化学习的知识，获取一种水下自主航行器协同搜索路径规划方法。通过本申请提出的策略网络与价值网络，实时规划水下航行器的运动路径，提高航行器协同海洋目标搜索的平均搜索成功率，降低海洋目标搜索的平均搜索时间。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种水下自主航行器协同搜索路径规划方法的流程示意图；

图2是策略网络的流程示意图；

图3是价值网络的流程示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1至图3所示，本发明为解决上述技术问题采取的具体优化技术方案是：本发明涉及一种水下自主航行器协同搜索路径规划方法。

步骤4、重复步骤2、3直到航行器无法继续航行；

步骤6、重复执行步骤2、3、4、5直至函数收敛；

步骤7、根据策略输出最优路径。

具体实施例二：

本申请实施例二与实施例一的区别仅在于：

所述步骤1具体为：

具体实施例三：

本申请实施例三与实施例二的区别仅在于：

所述步骤2具体为：

实现方式如下：

其中，表示输出动作，/>为航行器的观测值，/>表示隐藏状态，Fc(·)为输入层与输出层，由全连接层构成；RNN(·)为中间层，由神经网络构成；c(·)为控制层，由选择网络构成。

具体实施例四：

本申请实施例四与实施例三的区别仅在于：

所述步骤3具体为：

具体实施例五：

本申请实施例五与实施例四的区别仅在于：

所述步骤4具体为：

具体实施例六：

本申请实施例六与实施例五的区别仅在于：

所述步骤5具体为：

其中，为每一步的奖励，/>为学习率，/>表示目标是否完成任务情况，/>表示选择价值，/>表示目标价值。

具体实施例七：

本申请实施例七与实施例六的区别仅在于：

所述步骤6具体为：

具体实施例八：

本申请实施例八与实施例七的区别仅在于：

本发明提供一种基于多智能体强化学习的水下自主航行器协同搜索路径规划系统，所述系统包括：

收敛模块，重复直至函数收敛；

策略输出模块，所述策略输出模块根据策略输出最优路径。

本申请提供了一种水下自主航行器协同搜索路径规划方法，具体包括以下步骤：步骤1、根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；步骤2、使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；步骤3、将动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；步骤4、重复步骤2、3直到航行器无法继续航行；步骤5、将经验池中的数据输入到价值网络中进行学习，输出其价值，并优化其价值函数与策略函数；步骤6、重复执行步骤2、3、4、5直至函数收敛；步骤7、根据策略输出最优路径。通过本申请中的技术方案，对经验池中的数据进行学习，提高了多航行器协同海洋目标搜索的平均搜索成功率，降低了海洋目标搜索的平均搜索时间。

具体实施例九：

本申请实施例九与实施例八的区别仅在于：

本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如一种水下自主航行器协同搜索路径规划方法。

所述方法包括以下步骤：

图1为本申请的实施例所提供的一种水下自主航行器协同搜索路径规划方法的流程示意图，本实施例利用模型模拟仿真水下环境，通过强化学习不断优化网络策略，适用于多航行器协同搜索路径规划。

如图1所示，本实施例的方法具体包括如下步骤：

步骤1、对水下自主航行器与其环境进行建模仿真，初始化环境状态；

具体的，该步骤主要对模型初始化，主要包括：

步骤1.1、创建环境中的三台自主航行器，其坐标为；以及九个目标点，在半径为r高为h的圆柱形范围内；还有跟时间相关的洋流/>。定义其观测值空间长度为L，取值范围/>；动作空间长度为3，取值范围分别为/>；

步骤1.2、初始化环境状态。主要包括初始化运行状态，初始化经验池buffer，初始化策略网络参数，初始化价值网络参数；

步骤1.3、判断航行器运行的总步数大于设置的最大步数，则停止探索，输出策略模型与价值函数；否则航行器可以继续航行，更新策略及价值函数，重置环境，运行步骤2；

具体的，该步骤主要输出水下自主航行器的动作，主要包括：

步骤2.1、输出环境中航行器的观测值，包括航行器自身的位置、速度信息，对9个目标点的观测值，以及9个目标点是否已经搜索到等信息，当前环境的状态，即为三个航行器的观测值的组合，并记录信息，将信息保存到经验池中；

步骤2.2、将当前观测值obs，当前轮次步数t_ep，航行器运行的总步数t_env输入到策略函数中；

步骤2.3、其中观测值obs输入到神经网络中，如图2所示，观测值obs先经过全连接层fc1，得到3×64的特征矩阵，其中3表示航行器的个数，将特征矩阵经过Relu激活函数得到矩阵输入层输出x；将x以及上一步隐藏特征h输入GRU循环神经网络层，得到当前步的隐藏状态h，其为3×64的特征矩阵，将其作为输出层的输入以及下一次循环的隐藏状态；将隐藏状态h输入到输出层fc2中，输出网络的输出动作v，其为3×3的动作矩阵，分别表示三台航行器的推力、升降舵、方向舵角；最后将v输入clamp限制其输出为环境预设的动作空间内，输出策略网络输出动作v；

步骤2.4、将策略网络输出动作v，当前轮次步数t_ep，航行器运行的总步数t_env输入到动作选择器中，按照下式计算概率：

其中，m为航行器选择探索运行的概率阈值，为航行器运行的总步数，/>表示开始探索的最小步数，/>最大探索的最小步数，T表示探索步数的长度，/>为（0,1）之间的随机数，/>为动作空间随机采样产生的动作，/>为最输出的动作。

步骤3、将动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；

具体的，该步骤主要模型环境输出观测值以及奖励，主要包括：

步骤3.1、将动作输入模型step中，当前回合运行步数加一，计算航行器当前状态，其为3×16矩阵；航行器观测到目标点的相对位置，为3×9×3的矩阵；根据航行器的位置与目标点的位置计算两者的欧氏距离，判断距离是否小于设定值，若小于设定值，则搜索到目标点，记录搜索到的目标点，用一维9元素矩阵标记搜索到的目标点；组合上述信息，观测值为3×52的矩阵；

步骤3.2、判断航行器是否发生碰撞、是否超出航行范围、是否搜寻到目标，进行相应的奖励惩罚，若发生，则将标志位置True，返回最终的奖励以及当前运行的步数，将动作、奖励、观测值、运行步数等信息保存到经验池中，与步骤2.1中的保存内容在同一条目中；除此之外航行器运动的总步数加一；

步骤4、重复步骤2、3直到航行器无法继续航行；其中，无法航行的标志包括，航行器协同搜索到全部目标，航行器发生碰撞，航行器超出航行范围；

具体的，该步骤主要为更新策略网络与价值网络，主要包括：

步骤5.1、判断经验池中保存的运行次数是否大于抽样的数目，若不满足抽样数目，运行步骤1.3，直至运行次数满足抽样的数目；若经验池中保存的运行次数大于抽样的数目，则从中随机选取抽样次数个运动轨迹输入到学习函数中；

步骤5.2、将抽取的经验输入到学习函数中，根据输入的经验池中的航行器的观测值，运用更新后的策略网络，返回每一条经验中每一步观测值对应的新的策略v₁，以及每一条经验中每一步运行后观测值对应的新的策略v₂，将策略v以及对应的状态空间输入到价值函数中；

步骤5.3、将策略v以及对应的状态空间输入到价值函数中，价值函数网络中如图3所示，其中w1、b1、w2、b2的超参数均是由状态s产生的，将状态s输入到w1中产生w1的超参数，其为s×n×m×L的矩阵，其中s为采样数，n为航行器运动的步数，m为输出策略个数，L为设定值32；将状态s输入到b1中产生b1的超参数，其为s×n×1×L的矩阵，根据下式计算：

其中elu为激活函数，h为s×n×1×L的矩阵，同理w2与b2的超参数也均由状态s产生，其中w2为s×n×L×1的矩阵，b2为s×n×1×1的矩阵，根据下式计算：

其中Q为s×n×1×1的矩阵，将Q转变成s×n×1的矩阵，方便计算损失函数；

步骤5.4：按步骤5.3的方法计算出步骤5.2中策略v_1、策略v₂所对应的价值函数，运用下式计算损失函数：

其中为每一步的奖励，/>为学习率，/>表示目标是否完成任务情况，/>表示选择价值，/>表示目标价值；

步骤6、重复执行步骤2、3、4、5直至函数收敛；判断步骤3.2中记录的航行器运行的总步数是否大于设定值，若大于设定值则停止算法，保存价值函数与策略函数；否则更新价值函数与策略函数的参数，运行步骤2直至算法收敛或航行器运行步数大于阈值；

步骤7、根据策略输出最优路径，加载步骤6中保存的网络，设定状态为测试模式，关闭航行器探索网络，航行器输出的路径即为最优路径。

本实施例的技术方案，通过航行器以及环境的模拟仿真，输出了较多较为有效的航行器运行路径，并通过本申请的方法，实现了航行器策略网络以及价值网络的学习更新，输出了一条多航行器协同搜索的最优路径，提高了海洋目标搜索的平均搜索成功率，降低了海洋目标搜索的平均搜索时间。

具体实施例十：

本申请实施例十与实施例九的区别仅在于：

本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其所述处理器执行所述计算机程序时实现一种水下自主航行器协同搜索路径规划方法。

本发明的技术方案是提供一种水下自主航行器协同搜索路径规划方法，具体包括以下步骤：

步骤1、以水下自主航行器的多种属性为基础，利用合适的动力学方程构建其仿真模型，根据任务需求对其环境进行建模仿真，使其能够根据航行器的动作输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；

步骤2、使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；根据随机探索的思想，从状态空间中随机采样，产生航行器下一步的探索动作；将期望动作与探索动作以及当前航行器运行的步数输入到动作选择器中产生下一时刻的最终动作。

步骤3、将产生的动作输入到环境中，产生下一时刻航行器的状态；根据航行器的状态，估计航行器与目标的相对位置距离，并进行相应的奖励惩罚；将环境状态、航行器观测值、航行器动作、执行动作的奖励结果等信息记录在经验池中。

步骤4、判断航行器本次的航行次数是否达到预设最大值，是否发生碰撞，是否超出航行范围，是否搜寻到目标；若均为否，航行器继续航行；若不均为否，航行器不能继续航行。

步骤6、从经验池中随机抽取一批动作，根据其记录的状态，运用策略网络，根据经验池中的状态与观测值，生成动作；将经验池的当前状态生成的动作与下一状态生成的动作输入价值函数中，得到选择价值与目标价值，并其损失计算公式：

步骤7、根据策略输出最优路径。

上述任一项技术方案中，进一步地，步骤1的具体细节如下：

环境包含多台航行器与多个目标点。航行器的状态空间由以下几部分组成：所有航行器的位置坐标，所有航行器距离目标点的观测值，已经到达的目标点。航行器的观测值由以下几部分组成：航行器的位置坐标，航行器距离目标点的估计值，已经到达的目标点。当航行器行驶距离目标点一定距离内，即可视为航行器搜索到该点。当航行器之间距离超出设定阈值，即可视为航行器超出航行范围。所有航行器共用奖励，每一步环境只会返回一个奖励值。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或N个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述仅是一种水下自主航行器协同搜索路径规划方法的优选实施方式，一种水下自主航行器协同搜索路径规划方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种水下自主航行器协同搜索路径规划方法，其特征是：所述方法包括以下步骤：

步骤1、根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行动作的奖励以及下一时刻的环境状态；

所述步骤2具体为：

实现方式如下：

i＝Fc(o)

h＝RNN(i，h)

v＝Fc(h)

其中，i为观测值经过输入层得到的输入，v表示输出动作，o为航行器的观测值，h表示隐藏状态，Fc(·)为输入层与输出层，由全连接层构成；RNN(·)为中间层，为GRU网络，由神经网络构成；c(·)为控制层，由选择网络构成；

步骤4、重复步骤2、3直到航行器无法继续航行；

所述步骤5具体为：

target_new＝rewards+θ*(1-ε)*Q_t

TD_error＝Q_c-target_new

其中，rewards为每一步的奖励，θ为学习率，ε表示目标是否完成任务情况，Q_t表示选择价值，Q_c表示目标价值，target_new为下一状态情况下获取到的目标值，TD_error为时序差分的误差，loss为网络损失函数；

步骤6、重复执行步骤2、3、4、5直至函数收敛；

步骤7、根据策略输出最优路径。

2.根据权利要求1所述的方法，其特征是：所述步骤1具体为：

3.根据权利要求1所述的方法，其特征是：所述步骤3具体为：

4.根据权利要求3所述的方法，其特征是：所述步骤4具体为：

5.根据权利要求1所述的方法，其特征是：所述步骤6具体为：

6.一种基于多智能体强化学习的水下自主航行器协同搜索路径规划系统，其特征是：所述系统包括：

仿真模块，所述仿真模块根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行动作的奖励以及下一时刻的环境状态；

实现方式如下：

i＝Fc(o)

h＝RNN(i，h)

v＝Fc(h)

从经验池中随机抽取一批动作，根据其记录的状态，运用策略网络，根据经验池中的状态与观测值，生成动作；

将经验池的当前状态生成的动作与下一状态生成的动作输入价值函数中，得到选择价值与目标价值，并其损失计算公式：

target_new＝rewards+θ*(1-ε)*Q_t

TD_error＝Q_c-target_new

收敛模块，重复直至函数收敛；

策略输出模块，所述策略输出模块根据策略输出最优路径。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任意一项权利要求所述的方法。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征是：所述处理器执行所述计算机程序时实现权利要求1-5任意一项权利要求所述的方法。