CN116634457B

CN116634457B - 一种基于深度强化学习的多无人机自适应数据收集与回传方法

Info

Publication number: CN116634457B
Application number: CN202310370469.3A
Authority: CN
Inventors: 戴燕鹏; 吕玲; 孙世煊
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2024-02-13
Anticipated expiration: 2043-04-07
Also published as: CN116634457A

Abstract

本发明公开一种基于深度强化学习的多无人机自适应数据收集与回传方法，包括如下步骤：基于空对地概率信道和两径损耗模型得到浮标‑无人机以及无人机‑岸基间的传输速率，基于多智能体混合近端策略优化算法，确定了无人机轨迹、任务模式和浮标发射功率；基于稳定婚姻匹配算法确定了浮标‑无人机的关联关系，启发式算法确定了无人机‑岸基间的关联关系；基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标‑无人机和无人机‑岸基关联关系进行优化，实现了无人机总任务时间的最小化。本发明缩短了多无人机辅助物联网系统数据收集和回传的总时间，提高了无人机数据收集和回传的性能。

Description

一种基于深度强化学习的多无人机自适应数据收集与回传方法

技术领域

本发明涉及无线通信技术领域，具体而言，尤其涉及一种基于深度强化学习的多无人机自适应数据收集与回传方法。

背景技术

海洋物联网的发展使人类的各种海洋活动更加频繁，极大地促进了海洋经济的发展。无线通信需求的激增对下一代无线通信技术的海上无线通信系统带来了巨大压力。与陆地相比，海上无线通信技术相对落后。例如，海上无线通信系统缺乏通信设施(如基站)的建设条件，海上频谱资源稀缺。此外，复杂的海面变化(如波浪运动、蒸发风道等)使得海上无线通信环境不稳定。因此，研究海洋物联网对实现灵活、高效、可靠的传输具有重要意义。

在海洋物联网系统中，通常在海面上部署嵌入各种传感器的浮标，以监测海洋环境。然而，这些浮标通常不在海上基站的服务范围内。虽然监测数据可以通过浮标和船舶组成的多跳网络进行传输，但当网络中的节点出现时，网络的连通性会受到严重破坏失败。卫星通信可以缓解网络故障的问题，但它在高延迟、低链路可靠性和高成本等方面存在致命缺陷。无人机辅助海上通信系统被认为是解决高时延和低可靠性问题的一种很有前途的解决方案。无人机作为空中移动基站，在辅助海上无线通信方面具有以下优点。一方面，无人机的高机动性使得无人机与浮标之间更容易建立视距通信链路，也使无人机可以灵活接近浮标，增强通信链路。因此，无人机能更好地适应复杂的海上无线通信环境，非常适合应急通信场景。另一方面，无人机通常具有体积小、成本低、易于控制等优点。无人机的应用可以降低在一些危险的海上环境中人工操作的风险。这些优点也使得无人机具有较高的隐蔽性，在海上军事活动中得到了广泛的应用。然而，无人机和浮标中嵌入的电池尺寸有限。如果无人机频繁返回充电区，会影响无人机的任务执行效率。而且，频繁更换电池会增加浮标的维护成本，事实上由于海洋环境状况恶劣，难以实现。另外，无人机需要收集浮标中缓存的数据，并将数据回传给岸基。在这个过程中，无人机会远离岸基，可能需要很长时间才能卸载数据。

综上所述，现有技术存在的问题是：

发明内容

根据无人机和浮标的能量消耗严重限制了无人机辅助海上无线通信的性能，在能量有限的条件下，无人机执行数据收集与回传任务可能会导致较高的通信延迟，本发明采用的技术手段如下：一种基于深度强化学习的多无人机自适应数据收集与回传方法，包括如下步骤：

S1、基于空对地概率信道和两径损耗模型得到浮标-无人机以及无人机-岸基间的传输速率，并基于浮标-无人机以及无人机-岸基间传输速率构建了最小化无人机收集数据及回传岸基过程的任务时间的问题表达式；

S2、基于多智能体混合近端策略优化算法，确定了无人机轨迹、任务模式和浮标发射功率；

S3、基于稳定婚姻匹配算法确定了浮标-无人机的关联关系，基于启发式算法确定了无人机-岸基间的关联关系；

S4、结合基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现了无人机总任务时间的最小化。

进一步地，该方法适用的场景为在无人机辅助的海洋物联网系统，所述海洋物联网系统具有相同的固定飞行高度H的U个无人机作为空中基站，在目标区域内飞行并执行数据收集和回传任务；无人机的任务是收集目标区域内随机分布的M个浮标所感测到的水文气象数据，并向收集到的数据全部回传至岸基；

无人机和浮标的集合分别表示为和岸基和浮标的集合表示为/>其中0表示岸基。

无人机的总任务完成时间被划分为多个相等的时隙，表示为T_total＝Kδ，其中K是时隙数量，是时隙的集合。

进一步地，所述基于空对地概率信道模型和两径损耗模型，所述浮标-无人机和无人机-岸基的传输速率表示为：

其中B_k表示第k个时隙内浮标-无人机链路和无人机-岸基链路的频谱带宽，α_u,i,k表示浮标-无人机和无人机-岸基的关联指示变量，g_u,i,k表示在第k个时隙内，浮标-无人机和无人机-岸基的信噪比。

进一步地，所述基于浮标-无人机和无人机-岸基的传输速率，最小化无人机收集数据及回传岸基过程的任务时间的问题表达式如下：

在问题P1中，V_u,k和ψ_u,k分别表示无人机的飞行速度和角度，V_max表示无人机的最大飞行速度，

约束条件C1和C2分别是无人机的飞行速度和飞行角度的约束；g_u,m,k表示第k个时隙内，浮标-无人机的信噪比，g_u,0,k表示第k个时隙内，无人机-岸基的信噪比；

C3和C4是信噪比约束，其中和/>分别是浮标-无人机和无人机-岸基的信噪比阈值；P_u,m,k和P_max分别表示第k个时隙内浮标的发射功率和最大发射功率；

C5限制了浮标的最大发射功率；和E_m分别表示无人机和浮标的总能耗，/>和分别表示无人机和浮标的能量阈值；

C6和C7分别表示无人机和浮标的能量消耗应小于其最大能耗；(x_u,k,y_u,k)表示无人机的水平坐标，x_max和y_max分别为目标区域的长度和宽度，表示第k个时隙无人机和其他任一无人机的距离，d^min表示无人机间的最小安全距离；

C8至C10确保无人机间保持距离以避免碰撞，并且不会飞出目标区域；α_u,m,k表示浮标-无人机的关联指示变量；

C11至C13为关联关系约束；R_u,m,k表示浮标-无人机间的传输速率，C_m表示需要从第m个浮标收集的数据量，和/>分别表示第k个时隙前，无人机收集的数据量和回传到基站的数据量，R_u,0,k表示无人机-岸基间的传输速率；

C14至C16是无人机数据收集和数据回传过程中的数据传输约束。

进一步地，所述问题P1简化的过程如下：

首先将奖励函数设计为：

E_pe是能量惩罚量；ρ_u,k是当无人机违反约束条件C8至C10时的位置惩罚量。此外，无人机的最大任务完成时间是K^max。如果无人机提前完成任务，则令K^*＝K^max-K为时间奖励，根据奖励函数，问题P1被改写为问题P2：

进一步地：所述基于多智能体混合近端策略优化算法的确定无人机轨迹、任务模式以及浮标的发射功率具体步骤如下：

S21:初始化目标网络参数，容量为D的经验缓存池，能量惩罚值；

S22:每个智能体根据当前状态S_k选取动作A_u,k；

S23:如果无人机飞行超出目标区域，则取消当前动作V_u,k和ψ_u,k，并基于当前状态更新奖励函数r_k和下一个时隙的状态S_k+1；

S24:如果将能量惩罚值设为-50；

S25:将经验数据元组(S_k,A_k,r_k,S_k+1)存入经验缓存池；

S26:如果经验缓存池达到最大容量，计算优势函数值以及状态值S_t；

S27:更新目标网络参数，当情节数时，则结束迭代，得到无人机的轨迹、任务模式以及浮标的发射功率。

进一步地，所述确定了浮标-无人机之间关联关系具体为：

根据给定浮标的发射功率、无人机的飞行速度和飞行角度，问题P1改写为：

采用基于稳定婚姻问题的算法来确定了浮标-无人机之间关联关系；具体过程如下：

S311:初始化无人机任务模式、速度、发射功率、浮标剩余数据量、浮标-无人机和无人机-岸基的关联状态、浮标-无人机间的信道增益；

S312:将浮标的发射功率设为最大值，并从经验池中删除最大值；

S313:根据信道增益和发射功率获取偏好矩阵；根据无人机速度获取飞行能耗；根据浮标最大功率获取所有浮标能耗；

S314:如果浮标剩余数据量为0或浮标-无人机信噪比、无人机飞行能耗、浮标能耗中某一个值不满足约束C3和C6，则令偏好矩阵中的信噪比为0，从而获取新的偏好矩阵；

S315:从新的偏好矩阵中获取最大信噪比值，如果最大信噪比不等于0，则获取具有最大信噪比值的无人机编号和浮标编号，并让第u个无人机和第m个浮标相关联；

S316:在数据收集的无人机集合中删除已关联的无人机编号，并将其任务模式设为收集数据模式；

S317:令偏好矩阵中第u行和第m列值为0，更新偏好矩阵，直到最大信噪比等于0；

S318:如果无人机不与任何浮标相关联，则变更无人机地任务模式，并将无人机的编号添加到首次被转换任务模式的无人机的集合中；否则结束循环，输出浮标-无人机的关联状态、首次被转换任务模式的无人机的集合。

进一步地，所述确定了无人机-岸基关联关系具体为：

获取浮标-无人机的关联关系后，无人机-岸基关联子问题表示为：

智能体选择数据回传模式，基于无人机-岸基关联关系的启发式算法以确保无人机的动作满足约束条件，首先判断无人机当前的动作值是否满足相关约束，然后更新动作值直到过程执行完毕，输出无人机-岸基的关联状态。

进一步地，所述结合基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现了无人机总任务时间的最小化过程如下：

在第k个时隙内，首先根据多智能体混合近端策略优化算法中智能体的动作获取

根据将多个无人机分为两个初始组：收集/>和回传/>然后判断/>是否满足约束，不满足相关约束的无人机的动作将被转换为/>并且这些无人机的编号将构成一个新的集合κ′_k；

根据来更新/>经过上述过程，完成了一次对初始回传组的判断，经过这次判断，符合相关约束的无人机将执行数据回传任务；不符合的无人机将被转换动作，并与初始收集组合并，进入之后对收集组的判断；

集合κ′_k中部分无人机可能既不满足数据收集也不满足数据回传约束；因此，如果且/>则设置/>如果/>且/>则设置/>因此，在某一时隙内，存在部分无人机既不收集也不回传数据；经历至多以上三次判断后，所有无人机的关联关系得以确定，无人机的轨迹、浮标发射功率、浮标-无人机、无人机-岸基均确定，因此，最小化无人机任务时间确定。

较现有技术相比，本发明具有以下优点：

本发明提供的一种基于深度强化学习的多无人机自适应数据收集与回传方法，能够有效缩短多无人机辅助物联网系统数据收集和回传的总时间，有效减少无人机的总任务完成时间，提升了无人机辅助海上无线通信的性能。

基于上述理由本发明可在无线通信等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法流程图；

图2为本发明实施例使用的网络场景图；

图3为本发明实施例提供的基于多智能体混合近端策略的无人机轨迹优化算法流程图；

图4为本发明实施例提供的基于稳定婚姻问题的关联算法流程图；

图5(a)为本发明实施例提供的不同方案下无人机轨迹对比分析图；(b)为不同方案下无人机在区域A的轨迹图；(c)为不同方案下无人机在区域B的轨迹图；

图6(a)为本发明实施例提供的起飞位置I的无人机轨迹对比分析图；(b)为本发明实施例提供的起飞位置II的无人机轨迹对比分析图；(c)为本发明实施例提供的起飞位置III的无人机轨迹对比分析图；

图7(a)为本发明实施例提供的信噪比阈值为7dB的无人机轨迹对比分析图；(b)为本发明实施例提供的信噪比阈值为8dB的无人机轨迹对比分析图；(c)为本发明实施例提供的信噪比阈值为9dB的无人机轨迹对比分析图；

图8为本发明实施例提供的不同信噪比阈值的总任务完成时间对比分析图；

图9为本发明实施例提供的不同带宽的总任务完成时间对比分析图；

图10为本发明实施例提供的不同LoS链路因子的总任务完成时间对比分析图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明方法流程图；一种基于深度强化学习的多无人机自适应数据收集与回传方法，包括如下步骤：

S4、基于稳定婚姻匹配算法(SMP-based association algorithm，SAA)、启发式算法(UAV-OBS association algorithm，UAA)以及多智能体混合近端策略优化算法(Multiple Agent Hybrid Proximal Policy Optimization，MAHPPO)的联合优化算法(SU-MAHPPO)，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现了无人机总任务时间的最小化。

下面结合附图对本发明的应用原理作进一步的描述。

图2为本发明实施例使用的网络场景图；

本发明适用的网络场景为无人机辅助的海洋物联网系统。海洋物联网系统具有相同的固定飞行高度H的U个无人机作为空中基站，在目标区域内飞行并执行数据收集和回传任务。无人机的任务是收集目标区域内随机分布的M个浮标所感测到的水文气象数据，并向收集到的数据全部回传至岸基。无人机和浮标的集合分别表示为和无人机的总任务完成时间被划分为多个相等的时隙，表示为T_total＝Kδ，其中K是时隙数量，/>是时隙的集合。

优选地，所述基于空对地概率信道和两径损耗模型得到浮标-无人机以及无人机-岸基间的传输速率，并基于浮标-无人机以及无人机-岸基间传输速率构建了最小化无人机收集数据及回传岸基过程的任务时间的问题表达式具体为：

S11、基于空对地概率信道模型和两径损耗模型，所述浮标-无人机和无人机-岸基的传输速率表示为：

其中：B_k表示第k个时隙内浮标-无人机链路和无人机-岸基链路的频谱带宽，α_u,i,k表示浮标-无人机和无人机-岸基的关联指示变量，g_u,i,k表示在第k个时隙内，浮标-无人机和无人机-岸基的信噪比。

S12、基于浮标-无人机和无人机-岸基的传输速率，最小化无人机收集数据及回传岸基过程的任务时间的问题表达式如下：

优选地，所述基于多智能体混合近端策略优化算法，确定了无人机轨迹、任务模式和浮标发射功率具体为：

所述问题P1简化的过程如下，将奖励函数设计为：

E_pe是能量惩罚量；ρ_u,k是当无人机违反约束条件C8至C10时的位置惩罚量。此外，无人机的最大任务完成时间是K^max。如果无人机提前完成任务，则令K^*＝K^max-K为时间奖励，根据奖励函数，问题P1可以被改写为问题P2：

如图3所示，基于多智能体混合近端策略优化算法的确定无人机轨迹、任务模式以及浮标的发射功率具体步骤如下：

S22:每个智能体根据当前状态S_k选取动作A_u,k；

S24:如果将能量惩罚值设为-50；

S25:将经验数据元组(S_k,A_k,r_k,S_k+1)存入经验缓存池；

优选地，所述确定了浮标-无人机之间关联关系具体为：

S31:根据给定浮标的发射功率、无人机的飞行速度和飞行角度，问题P1可改写为：

如图4所示，采用基于稳定婚姻问题的算法来确定了浮标-无人机之间关联关系，具体过程如下：

S32、获取浮标-无人机的关联关系后，无人机-岸基关联子问题表示为：

优选地，所述结合基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现了无人机总任务时间的最小化过程如下具体为：

κ′_k中部分无人机可能既不满足数据收集也不满足数据回传约束；因此，如果且/>则设置/>如果/>且/>则设置/>因此，在某一时隙内，存在部分无人机既不收集也不回传数据；经历至多以上三次判断后，所有无人机的关联关系得以确定。无人机的轨迹、浮标发射功率、浮标-无人机、无人机-岸基均确定，因此，最小化无人机任务时间的问题得以解决。

实施例：

仿真条件

设置目标区域范围为5000m×5000m，无人机禁飞区的范围为1500m×1500m。浮标随机分布在目标区域中，且浮标数量为10个。每个浮标的数据传输需求是C_m＝10Mbits，且最大发射功率是P_max＝24dBm。岸基的水平坐标为(0,0)m。无人机的数量为3个，飞行高度是100m。3个无人机的水平坐标分别为(0,0)m、(0,2500)m和(2500,0)m。无人机的最大飞行速度和飞行角度范围分别是V_max＝50m/s和ψ_u,k∈[0,2π]。每个无人机的发射功率是P_u,0,k＝0.1W。无人机之间的最大安全距离是d_min＝50m。每个时隙长度是δ＝1s。

对于MAHPPO算法，最大情节数为18000，最大时隙数K^max＝250。经验缓存池设置为1024，采样重复次数设置为8。

仿真内容与结果分析

将所提出的SU-MAHPPO算法与以下算法作对比，如下所示：

对比方法：SU-MAPPO算法：该算法是指采用多智能体近端策略优化(MultipleAgent Proximal Policy Optimization，MAPPO)算法来代替MAHPPO算法。此外，无人机的连续动作空间被离散化。在第k个时隙内，无人机的飞行角度表示为四个方向：上、下、左、右，即ψ_u,k∈{0,π/2,π,3π/2}；无人机的飞行速度表示为V_u,k∈{0,10,20,30,40,50}m/s。

仿真1：不同方案下无人机轨迹对比分析图

图5(a)为本发明实施例提供的不同方案下无人机轨迹对比分析图；(b)为不同方案下无人机在区域A的轨迹图；(c)为不同方案下无人机在区域B的轨迹图，展示了所提算法和SU-MAPPO算法之间的无人机轨迹的对比。所提算法和SU-MAPPO算法的总任务完成时间分别为53s和67s。所提算法的性能更优的原因是，所设计的奖励函数与每个时隙内的数据传输速率正相关。并且，所提算法的连续动作空间使得智能体可以更精准地控制每个时隙内无人机的位置。从图中可以看出，所提算法的无人机轨迹没有特别靠近岸基或浮标，这是因为无人机可以在不同时隙改变任务模式。以无人机的轨迹靠近距离较远的浮标为例。在这种情况下，无人机和浮标间的距离更短，使得数据收集时间减少。但是无人机相对远离岸基，使得难以满足数据回传的信噪比阈值。因此，无人机需要花费更多的时间来回传数据，从而使得总任务完成时间更长。

仿真2：不同起飞位置的无人机轨迹对比分析图

图6(a)为本发明实施例提供的起飞位置I的无人机轨迹对比分析图；(b)为本发明实施例提供的起飞位置II的无人机轨迹对比分析图；(c)为本发明实施例提供的起飞位置III的无人机轨迹对比分析图；展示了三组无人机从不同初始位置起飞的轨迹。第一组无人机的初始位置与默认位置相同，即位置组1。第二组无人机的初始位置分别为(1000,1000m)、(1500,2000m)和(3000,2000m)，即位置组2。第三组无人机的初始位置分别为(1500,1500m)、(1500,3000m)、(3000,1500m)，即位置组3。可以看出，无人机即使在禁飞区的边缘起飞，也可以避开禁飞区。这受益于在奖励函数中设置的位置惩罚量，可以引导智能体控制无人机在目标区域内飞行。

仿真3：不同信噪比阈值的无人机轨迹对比分析图

图7(a)为本发明实施例提供的信噪比阈值为7dB的无人机轨迹对比分析图；(b)为本发明实施例提供的信噪比阈值为8dB的无人机轨迹对比分析图；(c)为本发明实施例提供的信噪比阈值为9dB的无人机轨迹对比分析图，展示了在不同数据收集的信噪比阈值下的SU-MAHPPO算法的无人机轨迹。可以看出，随着信噪比阈值的增加，无人机轨迹会更靠近浮标。其原因是我们设计的奖励函数主要与数据传输速率和时间奖励值K^*有关。随着信噪比阈值的增加，无人机需要足够接近浮标以满足最小传输速率需求。则智能体选择让无人机更靠近浮标以提高数据收集的传输速率，从而缩短数据收集时间并获得更大的K^*。

仿真4：不同信噪比阈值的总任务完成时间对比分析图

如图8为本发明实施例提供的不同信噪比阈值的总任务完成时间对比分析图所示，展示了在不同数据收集的信噪比阈值下，SU-MAHPPO算法和SU-MAPPO算法的总任务完成时间的对比。

仿真5：不同带宽的总任务完成时间对比分析图

仿真6：不同LoS链路因子的总任务完成时间对比分析图

如图9为本发明实施例提供的不同带宽的总任务完成时间对比分析图；图10为本发明实施例提供的不同LoS链路因子的总任务完成时间对比分析图所示，显示了不同信道条件下SU-MAHPPO算法和SU-MAPPO算法的总任务完成时间对比。可以看出，我们所提算法的性能明显优于SU-MAPPO算法。原因是，离散化的动作空间使得SU-MAPPO算法无法在所考虑的环境中探索和选择最优动作。这进一步证明了所提算法在连续动作空间情况下的优势。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于深度强化学习的多无人机自适应数据收集与回传方法，其特征在于，包括如下步骤：

S1、基于空对地概率信道和两径损耗模型得到浮标-无人机以及无人机-岸基间的传输速率，并基于浮标-无人机以及无人机-岸基间传输速率构建最小化无人机收集数据及回传岸基过程的任务时间的问题表达式；

所述基于空对地概率信道模型和两径损耗模型，所述浮标-无人机和无人机-岸基的传输速率表示为：

其中B_k表示第k个时隙内浮标-无人机链路和无人机-岸基链路的频谱带宽，α_u,i,k表示浮标-无人机和无人机-岸基的关联指示变量，g_u,i,k表示在第k个时隙内，浮标-无人机和无人机-岸基的信噪比；

所述基于浮标-无人机和无人机-岸基的传输速率，最小化无人机收集数据及回传岸基过程的任务时间的问题表达式如下：

C5限制了浮标的最大发射功率；和E_m分别表示无人机和浮标的总能耗，/>和/>分别表示无人机和浮标的能量阈值；

C14至C16是无人机数据收集和数据回传过程中的数据传输约束；

S2、基于多智能体混合近端策略优化算法，确定无人机轨迹、任务模式和浮标发射功率；

所述基于多智能体混合近端策略优化算法的确定无人机轨迹、任务模式以及浮标的发射功率具体步骤如下：

S22:每个智能体根据当前状态S_k选取动作A_u,k；

S24:如果将能量惩罚值设为-50；

S25:将经验数据元组(S_k,A_k,r_k,S_k+1)存入经验缓存池；

S27:更新目标网络参数，当情节数时，则结束迭代，得到无人机的轨迹、任务模式以及浮标的发射功率；

S3、基于稳定婚姻匹配算法确定了浮标-无人机的关联关系，基于启发式算法确定无人机-岸基间的关联关系；

S4、结合基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现无人机总任务时间的最小化；

所述结合基于多智能体混合近端策略优化算法、稳定婚姻匹配算法以及启发式算法，对无人机轨迹、任务模式、浮标发射功率、浮标-无人机和无人机-岸基关联关系进行优化，实现无人机总任务时间的最小化过程如下：

根据来更新/>经过上述过程，完成一次对初始回传组的判断，经过这次判断，符合相关约束的无人机将执行数据回传任务；不符合的无人机将被转换动作，并与初始收集组合并，进入之后对收集组的判断；集合κ′_k中部分无人机可能既不满足数据收集也不满足数据回传约束；因此，如果/>且/>则设置/>如果/>且则设置/>因此，在某一时隙内，存在部分无人机既不收集也不回传数据；经历至多以上三次判断后，所有无人机的关联关系得以确定，无人机的轨迹、浮标发射功率、浮标-无人机、无人机-岸基均确定，因此，最小化无人机任务时间确定。

2.根据权利要求1所述的一种基于深度强化学习的多无人机自适应数据收集与回传方法，其特征在于，该方法适用的场景为在无人机辅助的海洋物联网系统，所述海洋物联网系统具有相同的固定飞行高度H的U个无人机作为空中基站，在目标区域内飞行并执行数据收集和回传任务；无人机的任务是收集目标区域内随机分布的M个浮标所感测到的水文气象数据，并将收集到的数据全部回传至岸基；

无人机和浮标的集合分别表示为和/>岸基和浮标的集合表示为/>其中0表示岸基；

3.根据权利要求1所述的一种基于深度强化学习的多无人机自适应数据收集与回传方法，其特征在于，所述问题P1简化的过程如下：

首先将奖励函数设计为：

E_pe是能量惩罚量；ρ_u,k是当无人机违反约束条件C8至C10时的位置惩罚量，此外，无人机的最大任务完成时间是K^max，如果无人机提前完成任务，则令K^*＝K^max-K为时间奖励，根据奖励函数，问题P1被改写为问题P2。

4.根据权利要求1所述的一种基于深度强化学习的多无人机自适应数据收集与回传方法，其特征在于，所述确定浮标-无人机之间关联关系具体为：

采用基于稳定婚姻问题的算法来确定浮标-无人机之间关联关系；具体过程如下：

S318:如果无人机不与任何浮标相关联，则变更无人机的任务模式，并将无人机的编号添加到首次被转换任务模式的无人机的集合中；否则结束循环，输出浮标-无人机的关联状态、首次被转换任务模式的无人机的集合。

5.根据权利要求1所述的一种基于深度强化学习的多无人机自适应数据收集与回传方法，其特征在于，所述确定无人机-岸基关联关系具体为：

(P4):

s.t.C4,C6,C11,C12,C15,C16.