CN115809609A

CN115809609A - 一种多水下自主航行器目标搜索方法及其系统

Info

Publication number: CN115809609A
Application number: CN202310064245.XA
Authority: CN
Inventors: 姜宇; 于慧勇; 宋建军; 齐红; 赵明浩; 王跃航; 王光诚
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-03-17
Anticipated expiration: 2043-02-06
Also published as: CN115809609B

Abstract

本发明涉及一种多水下自主航行器目标搜索方法及其系统。步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型；步骤2、利用水下自主航行器数据构建航行器目标搜索仿真模型；步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息，输入到行动者网络进行实时路径规划，实时更新航行器目标搜索仿真模型，并存储行动过程中所生成的数据；步骤4、每个水下自主航行器的每一条数据，所有水下自主航行器的状态、地图和动作均输入到评论家网络；步骤5、基于数据中动作的价值，进而更新行动者网络和评论家网络；步骤6、基于更新的行动者网络，对仿真目标移动模型进行搜索。用以解决环境因素对目标的漂移轨迹的影响问题。

Description

一种多水下自主航行器目标搜索方法及其系统

技术领域

本发明涉及目标搜索领域，具体涉及一种多水下自主航行器目标搜索方法及其系统。

背景技术

自主水下航行器的发展使许多最初在水下环境中由载人航行器完成的任务实现了自动化。自主水下航行器在海洋研究、深海勘探和研究以及军事领域都有较多的应用。随着人工智能技术的不断发展，水下相关技术的不断突破，为响应蓝海战略，对自主水下航行器控制的深入探索与研究是未来国家发展的重要趋势。

在自主水下航行器目标搜索问题中，有很多环境因素会影响目标的漂移轨迹，如风、浅流和海浪，这极大的增加了目标搜索的难度。在海上运动物体的搜索中还存在着信息不足、搜索面积大、搜索时间长、后勤保障困难、海洋环境恶劣等关键问题。目前的自主水下航行器控制策略还很难较好的解决该问题。

单水下自主航行器深度强化学习方法已广泛应用于自动驾驶、无人机等工业领域。对于多水下自主航行器深度强化学习方法，研究者也取得了一些突破。多水下自主航行器系统在自组织网状网络方面取得了长足的进步，并在通信方面实现了高水平的可靠性和安全性。尽管许多研究人员在一些关键领域正在逐步取得进展，但在目标搜索方面还没有产生完美的结果。

发明内容

本发明提供一种多水下自主航行器目标搜索方法，用以解决环境因素对目标的漂移轨迹的影响问题。

本发明提供一种多水下自主航行器目标搜索系统，利用多智能体深度强化学习来解决多水下自主航行器的目标搜索问题，并且在构建过程中融入地图信息，提高训练的效率，增加搜索成功率以及降低搜索时间。

本发明通过以下技术方案实现：

一种多水下自主航行器目标搜索方法，所述目标搜索方法具体包括以下步骤：

步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型；

步骤2、利用水下自主航行器数据构建航行器目标搜索仿真模型；

步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息，输入到行动者网络进行实时路径规划，实时更新航行器目标搜索仿真模型，并存储行动过程中所生成的数据；

步骤4、每个水下自主航行器的每一条数据，所有水下自主航行器的状态、地图和动作均输入到评论家网络；

步骤5、基于步骤4的数据中动作的价值，进而更新行动者网络和评论家网络；

步骤6、基于更新的行动者网络，对仿真目标移动模型进行搜索。

一种多水下自主航行器目标搜索方法，所述步骤1仿真目标移动模型具体为，由历史海洋目标漂移数据进行目标运行轨迹的生成，通过随机尺度，随机角度和随机位置来进行数据增强，模拟现实中海洋目标漂移的复杂轨迹。

一种多水下自主航行器目标搜索方法，所述步骤1航行器目标搜索仿真模型具体为，由航行器的移动控制，声纳探测组成，其移动控制模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向，其声纳探测通过声波的发送，反射和接受来进行目标的探测。

一种多水下自主航行器目标搜索方法，所述步骤3当前的状态输入包括当前航行器的坐标，其他航行器相对当前航行器的坐标。

一种多水下自主航行器目标搜索方法，所述步骤3地图信息包括全部的航行器的探索区域构成，之后经过预分配与数据处理最终生成该水下自主航行器的地图信息。

一种多水下自主航行器目标搜索方法，所述步骤3存储数据具体为，将该步执行过程中涉及到所有水下自主航行器的输入状态、地图、动作、动作执行后的状态和动作执行后的地图保存到经验回放存储器当中，以步为单位进行存储。

一种多水下自主航行器目标搜索方法，所述步骤4中的评论家网络的输入是所有水下自主航行器的状态、动作和地图，而不是单一水下自主航行器。

一种多水下自主航行器目标搜索方法，所述步骤5具体为，评论家网络的损失函数如下：

；

；

行动者网络的策略梯度如下：

；

其中，

是水下自主航行器的神经网络参数；

是当前的状态集

；

是当前的地图信息；

是下一步的状态集；

是下一步的地图；

是价值函数;

是随着Q函数一起更新的目标价值函数；

是由目标评论家网络预测的Q值；

是水下自主航行器

的动作；

是当前水下自主航行器的观察值，包含所有水下自主航行器的坐标；

是水下自主航行器得到的当前地图信息；

是水下自主航行器执行当前动作之后获得的奖励值；

是折扣值；

是经验回放存储器。

一种多水下自主航行器目标搜索方法，所述评论家网络为N层全卷积网络或N层全连接网络；所述行动者网络均为N层全卷积网络或N层全连接网络。

一种多水下自主航行器目标搜索系统，所述系统包括模型生成模块、航行器目标搜索仿真模型更新及存储模块、网络模块和网络更新模块；

所述模型生成模块，利用历史海洋目标漂移数据生成仿真目标移动模型，利用水下自主航行器数据构建航行器目标搜索仿真模型；

所述航行器目标搜索仿真模型更新及存储模块，每个水下自主航行器从环境中获取当前的状态以及地图信息，输入到行动者网络进行实时路径规划，实时更新航行器目标搜索仿真模型，并存储行动过程中所生成的数据；

所述网络模块，每个水下自主航行器的每一条数据，所有水下自主航行器的状态、地图和动作均输入到评论家网络；

所述网络更新模块，基于数据中动作的价值，进而更新行动者网络。

本发明的有益效果是：

本发明利用多水下自主航行器深度强化学习来解决多水下自主航行器的目标搜索问题，并且在构建过程中融入地图信息，提高训练的效率，增加搜索成功率以及降低搜索时间。

本发明通过在仿真模拟下的不断学习训练，多自主水下自主航行器可以自主的进行实时规划，并进行相互之间的协作，进而很好的完成目标搜索任务；通过在水下自主航行器的输入中加入地图信息，利用了航行器的航行历史信息，从而加快了方法的学习速度，也可以很好的提高目标搜索的平均搜索成功率以及减少平均搜索时间。

附图说明

图1本发明的实时规划过程示意图；

图2本发明的训练更新过程示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，一种多水下自主航行器目标搜索方法，所述目标搜索方法具体包括以下步骤：

步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型；

从国家海上搜救支援系统中通过多次仿真模拟生成海上目标漂移轨迹，然后由这些数据进行目标运行轨迹的生成，通过随机尺度，随机角度和随机位置来进行数据增强，模拟现实中海洋目标漂移的复杂轨迹，形成仿真目标移动模型。

步骤2、利用水下自主航行器AUV数据构建航行器目标搜索仿真模型；

所述航行器目标搜索仿真模型是由4个自主水下航行器组成，每个自主水下航行器具有控制系统，声纳探测系统，数据记录系统，通信系统等子系统。航行器的移动控制是模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向；其声纳探测通过声波的发送，反射和接受来进行目标的探测；数据记录系统会将其探测到的物体以及经历过的坐标记录到存储器中；通信系统会定期和周围其他航行器进行信息交换。

所述每个水下自主航行器的输入包括状态和地图信息，其中状态包括当前航行器的坐标，其他3个航行器相对当前航行器的坐标，其中的地图信息是由全部的航行器的探索区域构成，对每个部分都记录是否探索过以及探索的时间，之后经过预分配，将地图中的未探索区域分配给距离最近的航行器，然后将分配后的地图矩阵，以该航行器为中心，周围角度相等的8个方向上的矩阵值进行叠加，从而将地图矩阵转换为周围8个方向上的未探索区域个数，以此来引导水下自主航行器去探索未知区域，增加目标搜索的效率。由于海洋中目标会进行漂流，所以将探索时间较长的区域重新标记为未探索区域，以应对漂移目标的搜索。

所述存储行动中生成的数据是将该步执行过程中涉及到所有水下自主航行器决策的依据和规划结果保存到经验回放存储器当中，以步为单位进行存储；每条数据中由4个水下自主航行器的执行数据组成，每个水下自主航行器的决策的依据和规划结果包括输入状态、地图、动作、动作执行后的状态和动作执行后的地图。

将状态和地图信息输入到行为者网络中进行决策获得动作。然后在模拟环境中执行该动作，获得新的状态和地图信息。将产生的经验存储在一个经验回放存储器中。

奖励设置主要由三部分组成：当一个水下自主航行器发现目标时，给予一个巨大的奖励来鼓励搜寻目标，发现的时间越早，奖励越高；当水下自主航行器撞到边界时给与惩罚；当水下自主航行器探索一个新区域时，给予正奖励；当它反复探索一个区域时，给予负奖励。

每个水下自主航行器都有自己的行动者网络、评论家网络和目标评论家网络。首先从经验回放存储器的数据中随机抽取。然后每个水下自主航行器按时间步长将所有水下自主航行器的状态、地图和动作输入到批评家网络中，得到动作评价的Q值。然后根据行动者网络的策略梯度更新行动加网络。从目标评论家网络中也可以得到预测的Q值，根据这两个Q值更新评论家网络。

步骤5、基于步骤4的数据中动作的价值，进而更新行动者网络和评论家网络；评论家网络的作用是加快行动者网络的更新；

；

；