CN116412831B

CN116412831B - 面向应召反潜的多无人机动态避障航路规划方法

Info

Publication number: CN116412831B
Application number: CN202310685126.6A
Authority: CN
Inventors: 夏晓凯; 吴航宇; 刘禹; 牛婵; 孙悦
Original assignee: Beihang University; CETC Information Science Research Institute
Current assignee: Beihang University; CETC Information Science Research Institute
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-19
Anticipated expiration: 2043-06-12
Also published as: CN116412831A

Abstract

本发明涉及一种面向应召反潜的多无人机动态避障航路规划方法，属于无人机航路规划技术领域，该方法包括：构建多个场景实体；获取各个无人机场景实体的观测信息；获取融合了自然禁飞区注意力的空间特征编码以及融合了时序信息的空间特征编码；获取各个无人机场景实体分别对应的奖励，并将各个时间步的各个无人机场景实体分别对应的奖励存储至经验回放池中；获取各个无人机场景实体分别对应的权重；获取时间差分损失最小时对应的全局奖励；控制各个无人机场景实体执行全局奖励对应的动作，进行多无人机动态避障航路规划。本申请提供的面向应召反潜的多无人机动态避障航路规划方法，能够完成动态避障航路规划任务，同时改善多无人机的协同能力。

Description

面向应召反潜的多无人机动态避障航路规划方法

技术领域

本发明涉及无人机航路规划技术领域，尤其涉及一种面向应召反潜的多无人机动态避障航路规划方法。

背景技术

在现代作战场景中，对敌军潜艇的探测与反制是一个常见的作战任务。应召反潜任务是反潜任务中的一个重要子任务，是指反潜机在得到敌潜艇的位置、速度以及航向等信息后，飞至目标海域采取多种反潜方式，对敌潜艇进行搜索、定位、跟踪和反制的一种作战行动。在对潜艇的搜索和定位过程中，声纳浮标是一种常用的反潜装备，其广泛的搜索范围和高效的搜索能力使其在反潜任务中扮演着关键的角色。

在应召反潜的作战场景中，控制反潜机群按照约束的阵型抵达搜索区域，并按照一定的包围姿态进入搜索区域是需要达到的一个重要目标。然而，在多反潜机协同执行任务的场景下，统筹安排多架反潜机以合适的阵型前往目标区域需要每架反潜机上的驾驶员有良好的协作能力。因此，寻找一个能够控制飞行器协同进行应召反潜任务的航路规划的方法是一个亟待解决的问题。

一般的无人机控制方法往往是通过预设行为逻辑的规则式方法，或者启发式的算法。前者由于规则较为静态，面对比较多变的战场形势控制效果不太稳定，且人工设计的成本较高；后者面对复杂场景时由于状态空间的增大，实时性也难以得到保证。同时两者存在同一个缺点，对于无人机集群的队形控制和进入搜索区的队形姿态控制上难以进行简单易行的设计。因此，传统的无人机控制方法不能保证应召反潜任务中无人机控制效果的最优化，且需要的人工成本较高。

发明内容

本发明意在提供一种面向应召反潜的多无人机动态避障航路规划方法，以解决现有技术中存在的不足，本发明要解决的技术问题通过以下技术方案来实现。

本发明提供的面向应召反潜的多无人机动态避障航路规划方法，包括：

步骤S1：构建面向应召反潜的多无人机动态避障航路规划的多个场景实体，通过构建的多个场景实体生成任务规划仿真场景，其中，所述场景实体包括作战沙盘场景实体、自然禁飞区场景实体、多个无人机场景实体以及搜索区场景实体；

步骤S2：获取任务规划仿真场景中各个无人机场景实体的观测信息；

步骤S3：通过对获取的所述观测信息中的部分信息进行相关处理，获取各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码；

步骤S4：通过GRU循环神经网络对各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码进行处理，获取各个无人机场景实体分别对应的融合了时序信息的空间特征编码；

步骤S5：通过各个无人机对应的智能体网络获取各个时间步的各个无人机场景实体分别对应的奖励，并将各个时间步的各个无人机场景实体分别对应的奖励存储至经验回放池中；

步骤S6：通过各个无人机场景实体分别对应的融合了时序信息的空间特征编码获取各个无人机场景实体分别对应的权重；

步骤S7：将经验回放池中的各个无人机场景实体分别对应的奖励以及各个无人机场景实体分别对应的权重输入至Mix网络中获取全局奖励以及时间差分损失，根据时间差分损失获取时间差分损失最小时对应的全局奖励；

步骤S8：控制各个无人机场景实体执行全局奖励对应的动作，进行多无人机动态避障航路规划。

在上述的方案中，所述各个无人机场景实体的观测信息包括：各个无人机的绝对位置坐标信息及绝对速度信息；将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，自然禁飞区的相对位置坐标信息以及相对速度信息；自然禁飞区的绝对位置坐标信息以及绝对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息以及相对速度信息；情报信息。

在上述的方案中，步骤S3包括：

通过全连接层特征编码器对获取的所述观测信息中的部分信息进行处理，获得多个无人机特征和各个无人机场景实体分别对应的障碍物特征；

将获得的无人机特征作为注意力机制中的 Q矩阵，将障碍物特征分别作为注意力机制中的K矩阵和V矩阵，通过矩阵乘法对所述Q矩阵和K矩阵相乘得到相关性特征矩阵，并通过softmax函数将所述相关性特征矩阵转化为相关性系数，将所述相关性系数作为注意力权重矩阵；

通过矩阵乘法对所述注意力权重矩阵与所述V矩阵相乘得到各个无人机场景实体分别对应的基于注意力的障碍物特征矩阵；

将各个无人机场景实体分别对应的基于注意力的障碍物特征矩阵与各个无人机场景实体分别对应的普通特征进行融合，获取各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码。

在上述的方案中，所述观测信息中的部分信息包括：各个无人机的绝对位置坐标信息及绝对速度信息、将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息、自然禁飞区的绝对位置坐标信息以及绝对速度信息。

在上述的方案中，所述普通特征通过将各个无人机场景实体的观测信息输入至线性特征编码器获取。

在上述的方案中，步骤S5包括：

将多个时间步各个无人机场景实体的观测信息输入至各个无人机对应的智能体网络中；

通过各个无人机对应的智能体网络分别预测各个无人机场景实体分别对应的奖励；

获取包括无人机场景实体对应的奖励和无人机的动作的四元组信息；

将获取的四元组信息存储至经验回放池中。

在上述的方案中，通过各个无人机对应的智能体网络分别预测各个无人机场景实体分别对应的奖励包括：

通过各个无人机场景实体在时间步T_k和时间步T_k的上一时间步T_k-1距离搜索区的位置变化信息输入至各个无人机对应的智能体网络，获取各个无人机场景实体分别对应的势能奖励；

通过各个无人机场景实体将到达搜索区的过程中，每经过一个时间步的时间消耗输入至各个无人机对应的智能体网络，获取各个无人机场景实体分别对应的时间消耗惩罚；

通过各个无人机场景实体在多个时间步内是否符合阵型的约束输入至各个无人机对应的智能体网络，获取各个无人机场景实体分别对应的阵型破坏惩罚；

通过各个无人机场景实体在多个时间步内进入搜索区的状况输入至各个无人机对应的智能体网络，获取各个无人机场景实体分别对应的包围搜索区的奖励；

将各个无人机场景实体分别对应的势能奖励、时间消耗惩罚、阵型破坏惩罚以及包围搜索区的奖励进行加权求和，获取各个无人机场景实体分别对应的奖励。

在上述的方案中，四元组信息表示为(s, a, r, s')，其中，s为状态，a为动作，r为奖励，s'为下一状态。

在上述的方案中，步骤S6包括：

将各个无人机场景实体分别对应的融合了时序信息的空间特征编码作为输入；

通过Conv1d网络对各个无人机场景实体分别对应的融合了时序信息的空间特征编码进行处理，提取出全局的抽象特征；

将全局的抽象特征作为hyper network模型的输入，通过hyper network模型获取各个无人机场景实体分别对应的权重。

在上述的方案中，步骤S7包括：

将经验回放池中的各个无人机场景实体分别对应的奖励以及各个无人机场景实体分别对应的权重输入至Mix网络中；

通过Mix网络得到全局奖励，并通过全局奖励计算时间差分损失；

通过时间差分损失训练各个无人机场景实体分别对应的智能体网络以及Mix网络，获取时间差分损失最小时对应的全局奖励。

本发明实施例包括以下优点：

本发明实施例提供的面向应召反潜的多无人机动态避障航路规划方法，通过将各个时间步的各个无人机场景实体分别对应的奖励存储至经验回放池中，并通过为各个无人机场景实体匹配对应的权重，通过权重将存储至经验回放池中的奖励加权求和，获取全局奖励以及时间差分损失，根据时间差分损失获取时间差分损失最小时对应的全局奖励，以及控制各个无人机场景实体执行全局奖励对应的动作，能够完成动态避障航路规划任务，同时改善多无人机的协同能力。

附图说明

图1是本发明的一种面向应召反潜的多无人机动态避障航路规划方法的步骤流程图。

图2是本发明的面向应召反潜的多无人机动态避障航路规划的整体模型架构。

图3是本发明的注意力机制的工作流程图。

图4是本发明获取注意力权重矩阵的示意图。

图5是本发明的获取基于注意力的障碍物特征矩阵的示意图。

图6是本发明的GRU循环神经网络的结构图。

图7是本发明的势能奖励的示意图。

图8是本发明的时间消耗惩罚的示意图。

图9是本发明的阵型破坏惩罚的示意图。

图10是本发明的包围搜索区的奖励的示意图。

图11是本发明的提取出全局的抽象特征的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

如图1和图2所述，本发明提供一种面向应召反潜的多无人机动态避障航路规划方法，包括：

步骤S1：构建面向应召反潜的多无人机动态避障航路规划的多个场景实体，通过构建的多个场景实体生成任务规划仿真场景，其中，所述场景实体包括作战沙盘场景实体、自然禁飞区场景实体、多个无人机场景实体以及搜索区场景实体。

具体地，各个场景实体的实体描述如表1所示：

表1 多无人机动态避障航路规划的多个场景实体描述

其中，作战沙盘场景实体总体上以二维形式展现，考虑到应召反潜任务执行的实际搜索范围，作战沙盘以20km×20km大小为基准，对应横纵坐标满足比例尺为10km:1；在任务规划仿真场景中，自然禁飞区不再具备高度特征，同时，将根据一定程度的随机规则在地图上移动，模拟自然禁飞区的偏移特性；在任务规划仿真场景中，无人机不再具备高度特征，且由于简化了物理模型限制，无人机将具备悬停能力，且不受最大偏航角的物理指标影响，此外，所有无人机均同构，具备相同的加速能力，指示标记等特征；在任务规划仿真场景中，不展示潜艇的具体位置，以应召反潜情报中的潜艇位置为圆心，10km为半径形成一个搜索区，可视为潜艇在该搜索区内，该阶段航路规划的飞行目标即为该搜索区；此外，在任务规划仿真场景中，各个场景实体的动作受实体的动力、环境的阻力以及实体的最大物理速度限制等因素的综合影响。

步骤S2：获取任务规划仿真场景中各个无人机场景实体的观测信息。

具体地，各个无人机场景实体的观测信息包括：各个无人机的绝对位置坐标信息及绝对速度信息；将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，自然禁飞区的相对位置坐标信息以及相对速度信息；自然禁飞区的绝对位置坐标信息以及绝对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息以及相对速度信息；情报信息。

具体地，各个无人机场景实体的观测信息如表2所示：

表2 各个无人机场景实体的观测信息

其中，自身状态为某一无人机在当前时间步的自身状态信息，包括了自身的绝对位置信息和速度信息，一共由4个标量信息组成；其他无人机状态为某一无人机在环境观测中观察到的其他无人机的状态信息，包括其关于某一无人机的相对位置信息以及速度信息，一共有(无人机数量-1)*4个标量信息；自然禁飞区相对信息为无人机在某一时间步在环境中观测到的自然禁飞区的相对位置坐标以及速度信息，一共有(禁飞区数量)*4个标量信息；潜艇情报

为执行应召反潜任务前获得的潜艇情报信息，包括潜艇绝对初始位置、初始的速度方向，一共4个标量信息；自然禁飞区绝对信息为无人机在某一时间步在环境中观测到的自然禁飞区的绝对位置坐标以及速度信息，一共有(禁飞区数量)*4个标量信息，主要用于注意力权重的生成。

其中，在任务规划仿真场景中各个无人机场景实体的动作信息如表3所示：

表3 各个无人机场景实体的动作信息

其中，在任务规划仿真场景中存在基础奖励设计，在动态避障航路规划任务中，基础的奖励反馈设计如表4所示：

表4 在动态避障航路规划基础奖励

步骤S3：通过对获取的所述观测信息中的部分信息进行相关处理，获取各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码。

具体地，步骤S3包括：

步骤S31：通过全连接层特征编码器对获取的所述观测信息中的部分信息进行处理，获得多个无人机特征和各个无人机场景实体分别对应的障碍物特征，其中，所述观测信息中的部分信息包括：各个无人机的绝对位置坐标信息及绝对速度信息、将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息、自然禁飞区的绝对位置坐标信息以及绝对速度信息；

步骤S32：将获得的无人机特征作为注意力机制中的Q矩阵，将障碍物特征分别作为注意力机制中的K矩阵和V矩阵，通过矩阵乘法对所述Q矩阵和K矩阵相乘得到相关性特征矩阵，并通过softmax函数将所述相关性特征矩阵转化为相关性系数，将所述相关性系数作为注意力权重矩阵；

步骤S33：通过矩阵乘法对所述注意力权重矩阵与所述V矩阵相乘得到各个无人机场景实体分别对应的基于注意力的障碍物特征矩阵；

步骤S34：将各个无人机场景实体分别对应的基于注意力的障碍物特征矩阵与各个无人机场景实体分别对应的普通特征进行融合，获取各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码，其中，所述普通特征通过将各个无人机场景实体的观测信息输入至线性特征编码器获取。

如图3和如图4所示，步骤S31和步骤S32的过程具体如下：

将观测信息中的部分信息经过全连接层特征编码器处理后，获得多个无人机特征和各个无人机场景实体分别对应的障碍物特征，使用无人机特征作为注意力机制中的Q矩阵，维度为[n_uav,dim_u]，将障碍物特征分别作为注意力机制中的K矩阵和V矩阵，维度为[n_land,dim_l],Q矩阵和K矩阵通过矩阵乘法得到一个维度为[n_uav,n_land]的相关性特征矩阵，并通过softmax函数将所述相关性特征矩阵转化为相关性系数，将所述相关性系数作为注意力权重矩阵。

如图5所示，步骤S33的过程具体如下：注意力权重矩阵即代表了对于无人机而言，自然禁飞区的重要程度，将注意力权重矩阵再次作用到V矩阵，即可得到基于注意力的障碍物特征矩阵。

步骤S4：通过GRU循环神经网络对各个无人机场景实体分别对应的融合了自然禁飞区注意力的空间特征编码进行处理，获取各个无人机场景实体分别对应的融合了时序信息的空间特征编码。

如图6所示，GRU循环神经网络通过其具有的更新门、重置门等门控单元拥有对时序信息的记忆能力，将融合了自然禁飞区注意力的空间特征编码经过GRU循环神经网络之后能够获得融合了时序信息的空间特征编码，能够让无人机场景实体结合一段时间内的时空历史信息，可为无人机场景实体做出有效动作提供可靠的信息支撑。

步骤S5：通过各个无人机对应的智能体网络获取各个时间步的各个无人机场景实体分别对应的奖励，并将各个时间步的各个无人机场景实体分别对应的奖励存储至经验回放池中。

具体地，步骤S5包括：

步骤S51：将多个时间步各个无人机场景实体的观测信息输入至各个无人机对应的智能体网络中；

步骤S52：通过各个无人机对应的智能体网络分别预测各个无人机场景实体分别对应的奖励；

步骤S53：获取包括无人机场景实体对应的奖励和无人机的动作的四元组信息，其中，四元组信息表示为(s, a, r, s')，其中，s为状态，a为动作，r为奖励，s'为下一状态；

步骤S54：将获取的四元组信息存储至经验回放池中。

具体地，步骤S52中将各个无人机场景实体分别对应的势能奖励、时间消耗惩罚、阵型破坏惩罚以及包围搜索区的奖励进行加权求和，获取各个无人机场景实体分别对应的奖励。

如图7所示，势能奖励的设计思想为：当智能体远离搜索区时，会得到惩罚，而靠近搜索区时，会得到奖励，势能奖励的计算公式为：

其中,/>为无人机场景实体在时间步T_k和时间步T_k的上一时间步T_k-1距离搜索区的位置变化，靠近则为负，远离则为正，rew_potential_base为势能奖励基数，奖励的实际值依赖于该基数值的设置；通过智能体网络对上述公式进行运算，可获取各个无人机场景实体分别对应的势能奖励。

如图8所示，时间消耗惩罚用于帮助无人机场景实体找到到达搜索区最近的那一条路线，时间消耗可以衡量无人机场景实体所寻找路线的时间，如果路线比较绕则时间消耗惩罚会更大，时间消耗惩罚计算公式为：

punish_time_consume=punish_time_consume_base

其中，punish_time_consume_base为时间消耗惩罚基数，表示每经过一个时间步，无人机场景实体获得的固定时间消耗惩罚；通过智能体网络对上述公式进行运算，获取各个无人机场景实体分别对应的时间消耗惩罚。

如图9所示，无人机集群在飞行过程中，常常保持一定的飞行阵型，以提高协同效率，降低风险，以三架无人机为例，阵型破坏惩罚按照阵型保持等边三角形来进行计算，阵型破坏惩罚计算公式为：

formation_punish=mae(d_i-formation_length)× formation_punish_base

其中mae(di-formation_length)为每两个无人机场景实体之间的距离减去阵型约束的距离后的平均绝对值误差，该值越大，说明无人机场景实体之间越不符合阵型的约束，以formation_punish_base为阵型惩罚的基数，通过智能体网络对上述公式进行运算，即可学习到保持阵型的策略，在阵型因某些原因遭到破坏时，如通过较窄的飞行区域，在有条件的情况下可以动态恢复阵型，增强无人机集群协同飞行的动态恢复能力。

如图10所示，包围搜索区的奖励分为两个部分，一个是正确进入搜索区的奖励，一个是错误进入搜索区的惩罚，错误进入搜索区的惩罚主要是为了部分惩罚智能体提前进入搜索区，影响任务执行的协同性，而正确进入搜索区的奖励则表示多无人机同时进入搜索区能获得的奖励，该奖励还与进入包围区的姿态有关，包围搜索区的奖励计算公式为：

其中，x为进入包围区的无人机个数，n为无人机的总个数，punish_wrong_bound为进入包围区惩罚，rew_right_bound是最大能获得包围搜索区的奖励，但是该奖励需要根据进入的姿态进行打分，评估方式即为v_i和v_l,v_i为所有无人机与搜索区中心距离的方差，以保证其协同进入的能力，v_l为计算每个无人机与目标区域中心距离的矢量，并求和后取模得到的值，若该值为0则代表无人机均匀地分布在了目标区域的三等分点，否则说明姿态还需调整，通过智能体网络对上述公式进行运算，获取各个无人机场景实体分别对应的包围搜索区的奖励。

步骤S6：通过各个无人机场景实体分别对应的融合了时序信息的空间特征编码获取各个无人机场景实体分别对应的权重。

如图11所示，步骤S6包括：

步骤S61：将各个无人机场景实体分别对应的融合了时序信息的空间特征编码obs_embedding作为输入；

步骤S62：通过Conv1d网络对各个无人机场景实体分别对应的融合了时序信息的空间特征编码obs_embedding进行处理，提取出全局的抽象特征；

步骤S63：将全局的抽象特征作为hyper network模型的输入，通过hyper network模型获取各个无人机场景实体分别对应的权重。

具体地，获取各个无人机场景实体分别对应的融合了时序信息的空间特征的维度，将Conv1d网络输入通道in_channels的维度与其设置为相同，将Conv1d网络的卷积核的实际大小kernel_size设置为与卷积核的实际大小相等，则每一个卷积核的实际大小均为[num_agent,in_channels]，将对各个无人机场景实体分别对应的融合了时序信息的空间特征进行卷积,提取出全局的抽象特征，且每一个Conv1d网络法人卷积核得到的特征组成Conv1d网络的一维。

步骤S7：将经验回放池中的各个无人机场景实体分别对应的奖励以及各个无人机场景实体分别对应的权重输入至Mix网络中获取全局奖励以及时间差分损失，根据时间差分损失获取时间差分损失最小时对应的全局奖励。

具体地，步骤S7包括：

步骤S71：将经验回放池中的各个无人机场景实体分别对应的奖励以及各个无人机场景实体分别对应的权重输入至Mix网络中；

步骤S72：通过Mix网络得到全局奖励，并通过全局奖励计算时间差分损失；

步骤S73：通过时间差分损失训练各个无人机场景实体分别对应的智能体网络以及Mix网络，获取时间差分损失最小时对应的全局奖励。

具体地，Mix网络是一种值分解的思想，即将全局奖励分解为多个无人机场景实体分别对应的奖励的组合，对于完全合作类型的多无人机任务来说，要将联合动作值函数的最大值转化为每个局部动作值函数取最大值，即：

，其中，argmax为最大值函数，Q_tot为全局奖励，Q_i为第i个无人机场景实体对应的奖励，其中，i=1,2,…n，s_i为第i个无人机场景实体对应的状态，s为所有无人机的联合状态，a_i为第i个无人机场景实体对应的执行的动作，a为所有无人机的联合动作;

为获取每个局部动作值函数满足一定的单调性约束，通过以下公式：

，其中，/>；

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向应召反潜的多无人机动态避障航路规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，所述各个无人机场景实体的观测信息包括：各个无人机的绝对位置坐标信息及绝对速度信息；将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息及相对速度信息；将各个无人机分别作为观测无人机时，自然禁飞区的相对位置坐标信息以及相对速度信息；自然禁飞区的绝对位置坐标信息以及绝对速度信息；将各个无人机分别作为观测无人机时，搜索区的相对位置坐标信息以及相对速度信息；情报信息。

3.根据权利要求1所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，步骤S3包括：

4.根据权利要求3所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，所述观测信息中的部分信息包括：各个无人机的绝对位置坐标信息及绝对速度信息、将各个无人机分别作为观测无人机时，其他无人机的相对位置坐标信息及相对速度信息、自然禁飞区的绝对位置坐标信息以及绝对速度信息。

5.根据权利要求3所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，所述普通特征通过将各个无人机场景实体的观测信息输入至线性特征编码器获取。

6.根据权利要求1所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，步骤S5包括：

将获取的四元组信息存储至经验回放池中。

7.根据权利要求6所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，通过各个无人机对应的智能体网络分别预测各个无人机场景实体分别对应的奖励包括：

8.根据权利要求6所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，四元组信息表示为(s, a, r, s')，其中，s为状态，a为动作，r为奖励，s'为下一状态。

9.根据权利要求1所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，步骤S6包括：

10.根据权利要求1所述的面向应召反潜的多无人机动态避障航路规划方法，其特征在于，步骤S7包括：