CN113395654A

CN113395654A - 一种边缘计算系统的多无人机任务卸载和资源分配的方法

Info

Publication number: CN113395654A
Application number: CN202110657342.0A
Authority: CN
Inventors: 郑�镐; 蒋丽; 赖健鑫; 陈湛文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明公开了一种边缘计算系统的多无人机任务卸载和资源分配的方法，包括步骤如下：将无人机的当前位置、无人机的相对距离、无人机与物联网智能设备的相对距离、物联网智能设备的服务次数组合成系统状态；构建深度确定性策略梯度优化神经网络；将系统状态输入到深度确定性策略梯度优化神经网络中，得到系统动作；边缘计算系统执行系统动作，并根据即时回报函数得到该系统动作的报酬值；根据得到的报酬值继续训练深度确定性策略梯度优化神经网络的参数，直到报酬值趋于稳定，训练得到最优的策略π。本发明通过深度确定性策略梯度优化神经网络优化无人机的轨迹、卸载策略和计算资源分配策略，在保证物联网智能设备服务公平性的前提下，使得系统能耗最小化。

Description

一种边缘计算系统的多无人机任务卸载和资源分配的方法

技术领域

本发明涉及物联网计算卸载和资源分配技术领域，更具体的，涉及一种边缘计算系统的多无人机任务卸载和资源分配的方法。

背景技术

随着物联网的发展，新兴的多样化移动应用如增强现实、人脸识别、移动在线游戏、虚拟现实等新兴技术不断发展，对延迟处理和计算卸载的要求也日益增加。然而，移动设备的计算处理能力不足、电池容量有限，难以满足低时延和低能耗的要求。现代工业物联网智能设备由于外形因素小、生产成本约束严格，在计算能力方面往往受到限制，但是又由于智能设备经常会以一定的频率产生一些计算任务需要处理，如果不及时进行处理，将会导致任务被丢弃，造成不可挽回的后果。因此就需要一种方法来解决这一问题。

移动边缘计算已被公认为应对这一挑战的有前途的技术之一。它为边缘网络提供云计算服务，移动用户可以将他们的计算任务卸载到边缘网络中。与移动云计算不同，移动边缘计算中的网络边缘设备可以执行类似云的计算，并且部署在用户附近。它可以帮助用户节约能量，并提供低延迟服务，保障移动应用安全的优势。但是，部署在固定位置的移动边缘计算，灵活性差，难以动态调整。无人机网络在拥有部署容易、灵活性强和应用范围广等优点的同时，也面临着一些挑战，比如其十分有限的电池容量和相对较弱的计算能力。

近年来，随着无人机成本的降低和能力的提升，无人机不仅在军事战场上扮演着重要角色，在民用领域中的应用也越来越广泛，主要涉及监视和监控、救灾应急、精准农业和网络覆盖等方面。因此，基于无人机的移动边缘计算部署更加灵活和迅速，这使得它们特别适用于某些特定应用需求或响应意外事件。而且无人机具有高速移动性，因此无人机能够动态及靠近它所需要服务的移动设备，来显著提高网络的吞吐量和通信能力。其次，与地面中的地对地链路相比，无人机网络中空对地链路具有视距传输的特点，因此能提供更高的链路容量。所以，基于无人机的移动边缘计算是现在的研究重点之一。

人工智能作为近年来非常热门的研究方向之一，将其与基于无人机的边缘计算结合能够赋予这种架构极大的能力。相较于普通边缘计算，边缘智能计算能够利用智能方法有效解决无人机边缘计算中的连接策略、资源管理等问题，同时也能为地面用户或无人机用户运行的智能应用提供计算服务。基于无人机的边缘智能计算在无人机上搭载了高性能芯片和深度强化学习等人工智能算法，这使其在拥有计算能力的同时也具备良好的决策能力，无人机能够根据当前信道状态、地面节点分布状况以及无人机自身位置等环境信息做出最优决策来执行下一步的动作，同时利用自身机动性强的优点，更加快速灵活地为一片区域内的多个用户设备提供计算卸载服务，如中国专利公开号：CN111585637A，公开日：2020-08-25，公开了一种基于边缘计算系统的无人机任务卸载和资源分配方法，边缘计算系统包括：若干个无人机和若干个Fog节点；无人机任务卸载和资源分配方法包括以下步骤：根据边缘计算系统中的无人机向Fog节点卸载任务问题以及Fog节点向无人机分配计算资源问题构建最优化无人机利益的目标函数；计算目标函数得到无人机任务卸载和计算资源分配的最优解，并根据无人机任务卸载和计算资源分配的最优解，得到无人机利益的最优化方案。

但是，在一些偏远地区或者救灾场景中，因为无人机的成本较高，数量有限，所以拥有足够的无人机一直覆盖全部区域不太现实，因此无人机必须一直保持飞行，确保在合理的时间内尽量覆盖到所有区域。所以如何保证地面设备的服务公平性进而延长整个网络的寿命并且提高网络的服务质量就显得非常重要。

发明内容

本发明为了解决以上所提到的问题，提供了一种边缘计算系统的多无人机任务卸载和资源分配的方法，其通过度确定性策略梯度优化神经网络优化无人机的轨迹、卸载策略和计算资源分配策略，在保证物联网智能设备服务公平性的前提下，使得系统能耗最小化。

为实现上述本发明目的，采用的技术方案如下：

一种边缘计算系统的多无人机任务卸载和资源分配的方法，所述的方法包括步骤如下：

S1：制定系统状态S_t，将无人机的当前位置、无人机的相对距离、无人机与物联网智能设备的相对距离、物联网智能设备的服务次数组合成系统状态S_t；

S2：构建深度确定性策略梯度优化神经网络，初始化神经网络参数包括权重、偏置、学习率、神经网络的层数；

S3：将系统状态S_t输入到深度确定性策略梯度优化神经网络中进行训练，得到系统动作，所述的系统动作包括物联网智能设备的卸载决策、无人机的飞行方向、无人机的飞行距离、无人机分配给对应物联网智能设备的计算资源；

S4：边缘计算系统根据步骤S3得到的系统动作执行相应的动作，并根据即时回报函数得到该系统动作的报酬值；

S5：根据得到的报酬值继续训练深度确定性策略梯度优化神经网络的参数，直到报酬值趋于稳定，由此完成对深度确定性策略梯度优化神经网络的训练，训练得到最优的策略π，所述的策略π包括最佳的无人机轨迹、卸载方案和计算资源分配方案。

优选地，所述的深度确定性策略梯度优化神经网络包括动作神经网络、批评家神经网络；

所述的动作神经网络将系统状态S_t作为输入，输出动作A_t，得到策略π定义为一个映射π：S_t→A_t；其中，t表示时隙；

对于任何动作A_t，采用评论家神经网络用于评估预期的长期回报，来指导动作A_t向更好的方向发展，定义为一个映射Q(S_t,A)→R。

进一步地，在决策时隙t时，所述的动作神经网络接收系统状态S_t，并产生动作A_t，同时获得下一个网络状态S_t+1；

马尔科夫过程的即时回报函数R_t等于采取一个动作从当前状态S_t到达下一个状态S_t+1所付出的代价；

然后，将(S_t,A_t,R_t,S_t+1)存放在记忆内存中；在每个训练阶段，从记忆内存中选取样本来进行学习更新动作神经网络和评论家神经网络的参数，以达到长期报酬的最大化，也即最优化的目标函数，所述的目标函数定义为maxE_π,s[R(S_t+1|S_t,π(A_t))]。

进一步地，对于动作神经网络，将从记忆内存中选择样本Ω＝{(S_t，A_t)|t∈Γ}，其中，Γ代表样本索引；使用机器学习中Adam优化器向最小化代价函数L(θ^u)的方向更新动作神经网络的参数θ^u，其中，

u(S_t)表示当前动作神经网络输入S_t所产生的输出；

通过优化最小化代价函数L(θ^u)来更新动作神经网络的参数θ^u，学习到最优策略π，从而完成训练过程。

再进一步地，对于评论家神经网络，将从记忆内存中取得的样本表示为Ω_Γ＝{(S_t,A_t,R_t,S_t+1)|t∈Γ}，其中，Γ代表样本索引；定义损失函数，L(θ^Q)＝E_Γ(R_t+γmaxQ(S_t',A_t')-Q(S_t,A_t))²，其中，γ是折扣因子；

通过优化损失函数L(θ^Q)来更新评论家神经网络的参数θ^Q，学习到最优策略π，从而完成训练过程。

再进一步地，定义系统状态S_t和动作A_t分别为

S_t∈{(X_k[n],Y_k[n],H),d_k,k'[n],d_k,m[n],u_m[n],k∈K,m∈M}

式中，(X_k[n],Y_k[n],H)表示无人机的当前位置；d_k,k'[n]表示在第n时隙两个无人机的相对距离；d_k,m[n]表示在第n时隙无人机k与物联网智能设备m的相对距离；u_m[n]表示第n时隙物联网智能设备m被服务的次数比例；s_m,k[n]表示在第n时隙物联网智能设备m对无人机k的二进制卸载决策，s_m,k[n]∈{0,1}，当k＝0,s_m,k[n]＝0表示选择在本地执行计算；k≠0,s_m,k[n]＝1则表示选择整体卸载到无人机k上进行处理，否则s_m,k[n]＝0；

d_k[n]表示无人机k的飞行距离，

表示无人机k的飞行方向，f_k,m[n]表示无人机k分配给选择卸载的物联网智能设备m的计算资源。

再进一步地，所述的即时回报函数计算得到报酬值，计算公式如下：

式中，δ表示公平指数，T[n]表示一个时隙的完整卸载计算过程的时间延迟；E[n]表示一个时隙的完整卸载计算过程的系统能耗；μ₁表示时间的权重因子，μ₂表示能耗的权重因子；

其中，

δ∈(0,1)，δ越大则服务的公平性越好，每个物联网智能设备的被服务的次数比例

T表示无人机服务的最长时隙长度，T_m表示每个物联网智能设备在T个时隙长度内被服务的次数。

再进一步地，一个时隙的完整卸载计算过程的时间延迟T[n]，其计算公式如下：

其中，二进制卸载变量s_m,k[n]∈{0,1}表示第n时隙的卸载决策，当k＝0,s_m,k[n]＝0表示选择在本地执行计算；当k≠0,s_m,k[n]＝1则表示选择整体卸载到无人机k上进行执行计算，否则s_m,k[n]＝0；

表示物联网智能设备m的计算任务在本地执行的执行时间延迟，

表示第n时隙的物联网智能设备m在本地执行的计算资源，Z_m[n]表示第n时隙的物联网智能设备m执行任务所需要的计算资源；

表示物联网智能设备m选择将计算任务卸载在无人机k上的卸载处理时间延迟，所述的卸载处理时间延迟包括物联网智能设备m上传任务到无人机产生的延迟时间

在无人机k上执行任务的时间

其中，R_m,k[n]表示物联网智能设备m在第n个时隙上传数据到无人机k的上传速率；f_k,m[n]表示无人机k在第n个时隙分配给地面设备m的计算资源；H_m[n]表示在第n个时隙物联网智能设备m的任务数据量大小；

所述的上传速率R_m,k[n]计算公式如下：

式中，p_m是上传计算任务数据到无人机时设备m的传输功率，

为无人机k到物联网智能设备m的距离；

[X_k[n],Y_k[n],H]表示无人机的地理位置，W_m＝[x_m,y_m]表示物联网智能设备的地理位置；β表示单位距离的信道增益。

再进一步地，一个时隙的完整卸载计算过程的系统能耗E[n]，其计算公式如下：

式中，

表示物联网智能设备m在本地计算过程中的能量消耗，

表示物联网智能设备m在第n个时隙上传数据到无人机k的传输能耗；

表示无人机的计算能耗；

表示无人机在n时隙的飞行能耗；

其中，

γ_m表示物联网智能设备m的芯片电容参数；

p_m表示物联网智能设备m的传输功率；

γ_k表示无人机k的芯片电容参数；

由于无人机为选择处理的物联网智能设备分配的计算资源不能超过自身的限制，也即

其中F_k表示无人机k的计算资源总数。

再进一步地，通过训练得到最优化的目标函数为

C2:

C3:d_k,k'[n]≥d_min,k∈K,n∈N

C4:

C5:

C6:μ₁+μ₂＝1

其中，C1表示无人机的位置不能飞出所在的服务区域；C2表示无人机的飞行距离和飞行方向约束；C3两个无人机的最小距离约束；C4表示一个物联网智能设备只能连接到一个无人机；C5表示分配给物联网智能设备的计算资源不超过无人机服务器自身的资源限制；C6表示能耗和时间延迟的权重约束。

本发明的有益效果如下：

本发明将深度确定性策略梯度优化神经网络应用到多无人机计算卸载和资源分配技术领域场景中，无人机可以学习到最优的轨迹、卸载和资源分配策略、可以有效地减少整个系统的成本，提高无线网络服务质量。

本发明在优化问题中，所用到的深度确定性策略梯度优化神经网络可以有效克服传统的深度强化学习方法状态行为空间的维度限制，加快了网络的收敛过程，使优化更高效。

同时本实施例考虑到地面物联网智能设备的服务公平性，在即时回报函数中设计服务公平性指数，与系统能耗和时间延迟的权衡构成分数比例关系。

附图说明

图1是实施例1所述的多无人机辅助物联网智能设备计算卸载和资源分配场景图。

图2是实施例1所述的边缘计算系统的多无人机任务卸载和资源分配的方法的流程图。

图3是实施例1所述的深度确定性策略梯度优化神经网络的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示。为多无人机辅助物联网智能设备计算卸载和资源分配场景图，图中区域分布着M个物联网智能设备，利用K个无人机来辅助地面物联网智能设备处理计算任务，物联网智能设备产生的计算任务既可以在本地进行计算又可以卸载到具有强大的计算和存储功能的无人机上进行处理。因为考虑到单个无人机覆盖范围和通信范围有限，所以本实施例考虑多个无人机的场景。考虑到物联网智能设备对计算任务的时间延迟敏感和整个边缘计算系统的能耗，本实施例将计算时间延迟和系统能耗作为主要优化目标，系统能耗主要包括物联网智能设备的本地计算能耗、卸载传输能耗、无人机的计算能耗和飞行能耗。因为无人机的数量有限，需要不断飞行才能覆盖所有物联网智能设备，因此本实施例也考虑了物联网智能设备的服务公平性，因此需要优化无人机的轨迹来实现服务公平性，这里采用深度确定性策略梯度优化神经网络来学习最优的动作决策，将上述两个优化目标构造成为强化学习报酬函数，使得强化学习的长期回报最大化，即使得我们的最优化目标函数最大化。

具体地，本实施例提供的一种边缘计算系统的多无人机任务卸载和资源分配的方法，所述的方法包括步骤如下：

在一个具体的实施例中，由于传统的Q-learning和DQN方法存在维数复杂，并不适合无人机的控制和计算卸载的资源分配问题，这里所用到的深度确定性策略梯度优化神经网络(DDPG)已经解决了具有大动作空间的各种领域中的许多具有挑战性的问题。所述的深度确定性策略梯度优化神经网络包括动作神经网络、批评家神经网络；

在动作神经网络，不是输出预期的回报或所有可能的行动的可能性，而是一个策略π；所述的动作神经网络将系统状态S_t作为输入，输出动作A_t，得到策略π定义为一个映射π：S_t→A_t；其中，t表示时隙；

在边缘计算系统中，边缘计算系统感知无人机和物联网智能设备的网络状态，并将其整合成系统状态S_t。所述的深度确定性策略梯度优化神经网络定期触发，在决策时隙t时，动作神经网络接收系统状态S_t，并产生动作A_t，同时获得下一个网络状态S_t+1。

马尔科夫过程的即时回报函数等于采取一个动作从当前状态S_t到达下一个状态S_t+1所获得的报酬R_t；

在一个具体的实施例中，对于动作神经网络，将从记忆内存中选择样本Ω＝{(S_t，A_t)|t∈Γ}，其中，Γ代表样本索引；使用机器学习中Adam优化器向最小化代价函数L(θ^u)的方向更新动作神经网络的参数θ^u，其中，

u(S_t)表示当前动作神经网络输入S_t所产生的输出；

在一个具体的实施例中，对于评论家神经网络，将从记忆内存中取得的样本表示为Ω_Γ＝{(S_t,A_t,R_t,S_t+1)|t∈Γ}，其中，Γ代表样本索引；定义损失函数，L(θ^Q)＝E_Γ(R_t+γmaxQ(S_t',A_t')-Q(S_t,A_t))²，其中，γ是折扣因子；

本实施例通过优化这两个函数来更新两个网络的参数，学习到最优策略，从而完成训练过程，根据最后的系统动作进行无人机的轨迹规划和计算卸载及其资源的分配。

在一个具体的实施例中，定义系统状态S_t和动作A_t分别为

S_t∈{(X_k[n],Y_k[n],H),d_k,k'[n],d_k,m[n],u_m[n],k∈K,m∈M}

d_k[n]表示无人机k的飞行距离，

在一个具体的实施例中，我们的其中一个优化目标是通过优化卸载决策和无人机的轨迹来最小化物联网智能设备和无人机的总能耗以及计算时间延迟。然而，这可能会导致不公平的过程，为了避免一些物联网智能设备在许多时隙里被服务，而其他物联网智能设备根本没有被服务的情况发生，所以定义了公平性指标。

假设地面有M个物联网智能设备，定义每个物联网智能设备的被服务的次数比例

其中，T表示无人机服务的最长时隙长度，T_m表示每个物联网智能设备在T个时隙长度内被服务的次数。我们的目标就是使u_m最大化，但是会有一种不公平的情况发生，就是在大多数或者甚至所有时隙中，某个物联网智能设备被服务，而其余的没有被服务。因此，我们需要解决服务的公平性问题。

这里定义一个公平指数，给定一个卸载控制策略，相应的公平指数为：

δ∈(0,1)，δ越大则服务的公平性越好。

所述的即时回报函数根据公平指数δ计算得到报酬值，计算公式如下：

在一个具体的实施例中，在我们考虑的场景中，有K个无人机为地面的M个物联网智能设备提供计算卸载服务。由于物联网智能设备的计算和存储能力有限，所以物联网智能设备既可以将计算任务放在在本地进行处理，也可以卸载到无人机进行处理。假设地面每个物联网智能设备都会产生一个简单的计算任务信息，定义为S_m＝{H_m,Z_m}。所述的物联网智能设备先发送任务的简要信息到无人机，无人机做出决策，是选择在本地进行计算进行处理或者卸载到选择的无人机上进行处理。其中，H_m表示物联网智能设备m的任务数据量大小，Z_m表示物联网智能设备m执行该任务所需的计算资源。

定义k∈{0,1,2...,K}，本实施例采用二进制卸载变量s_m,k[n]∈{0,1}表示第n时隙的卸载决策。当k＝0,s_m,k[n]＝0表示选择在本地执行计算。k≠0,s_m,k[n]＝1则表示选择整体卸载到无人机k上进行处理，否则s_m,k[n]＝0。

在一个具体的实施例中，定义无人机k的地理位置为：[X_k[n],Y_k[n],H]，其中，H为无人机k的固定高度。定义d_k[n]为无人机k在第n时隙的飞行距离，

为无人机k在第n时隙飞行的方向(角度)，

为无人机k在第n个时隙的速度，T_d为时隙时间长度。

要确保相邻两个无人机之间不能小于最小距离，

在一个具体的实施例中，假设无人机k的地理位置为[X_k[n],Y_k[n],H]，物联网智能设备的地理位置为W_m＝[x_m,y_m]。假设物联网智能设备同时卸载对信道带宽没有影响，那么物联网智能设备m在第n个时隙上传数据到无人机k的上传速率R_m,k[n]为：

其中，B表示无线信道带宽，p_m是物联网智能设备m上传计算任务数据到无人机时的传输功率，

为无人机k到物联网智能设备m的距离；β表示单位距离的信道增益。

在一个具体的实施例中，构建本地计算模型，如果物联网智能设备选择在本地执行任务S_m＝{H_m,Z_m}，那么物联网智能设备m的计算任务在本地执行的执行时间

计算公式如下：

式中，

表示第n时隙的物联网智能设备m在本地执行的计算资源，Z_m[n]表示第n时隙的物联网智能设备m执行任务所需要的计算资源。

所述的物联网智能设备m在本地计算过程中的能量消耗

计算公式如下：

式中，γ_m表示物联网智能设备m的芯片电容参数。

在一个具体的实施例中，构建将任务卸载到无人机上计算模型

在第n个时隙，如果物联网智能设备m选择将计算任务卸载到无人机k上进行处理，那么整个卸载过程包括三个步骤。首先就是物联网智能设备m先上传计算任务数据到无人机k；然后无人机k分配计算资源来执行任务；最后就是无人机k将接收到的结果返回地面的物联网智能设备m。

由于无线网络的返回速率一般远远高于上传速率，而且返回的数据也远远小于上传的数据，因此这里忽略返回的时间延迟和能耗。那么卸载处理时间延迟主要是两部分，第一部分就是物联网智能设备m上传任务到无人机产生的延迟

R_m,k[n]表示物联网智能设备m在第n个时隙上传数据到无人机k的上传速率，H_m[n]表示在第n个时隙物联网智能设备m的任务数据量大小；第二部分是在无人机k上执行任务的时间

其中，f_k,m[n]表示无人机k在第n个时隙分配给地面设备m的计算资源。

所述的物联网智能设备m选择将计算任务卸载到无人机k上进行处理，卸载所产生的系统能耗也主要由三部分组成，第一部分就是表示物联网智能设备m在第n个时隙上传数据到无人机k的传输能耗

第二部分就是示无人机的计算能耗，其中p_m表示物联网智能设备m的传输功率；

表示无人机在n时隙的飞行能耗

其中γ_k表示无人机k的芯片电容参数；第三部分是无人机在n时隙的飞行能耗为：

由于无人机k为选择处理的设备分配的计算资源不能超过自身的限制，也即

F_k表示无人机k的计算资源总数。

根据上面分析可以知道对于一个时隙的完整卸载计算过程的时间延迟T[n]，其表达式如下：

一个时隙的完整卸载计算过程的系统能耗E[n]，其表达式如下：

在一个具体的实施例中，直到报酬值趋于稳定，完成神经网络的训练，根据物联网智能设备请求的任务，在无人机计算资源和各种物理条件的约束下，通过训练得到最优化的目标函数为：

C2:

C3:d_k,k'[n]≥d_min,k∈K,n∈N

C4:

C5:

C6:μ₁+μ₂＝1

其中，C1表示无人机的位置不能飞出所在的服务区域；C2表示无人机的飞行距离和飞行方向约束；C3表示两个无人机的最小距离约束；C4表示一个物联网智能设备只能连接到一个无人机；C5表示分配给物联网智能设备的计算资源不超过无人机服务器自身的资源限制；C6表示能耗和时间延迟的权重约束。

从而得到最佳的无人机轨迹、卸载方案和计算资源分配方案，能实现在较少能耗和计算时间的同时，提高物联网智能设备的服务公平性，提高无线网络的性能。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：所述的方法包括步骤如下：

2.根据权利要求1所述的边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：所述的深度确定性策略梯度优化神经网络包括动作神经网络、批评家神经网络；

3.根据权利要求2所述的边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：在决策时隙t时，所述的动作神经网络接收系统状态S_t，并产生动作A_t，同时获得下一个网络状态S_t+1；

然后，将(S_t,A_t,R_t,S_t+1)存放在记忆内存中；在每个训练阶段，从记忆内存中选取样本来进行学习更新动作神经网络和评论家神经网络的参数，以达到长期报酬的最大化，也即最优化的目标函数，所述的目标函数定义为max E_π,s[R(S_t+1|S_t,π(A_t))]。

4.根据权利要求3所述的边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：对于动作神经网络，将从记忆内存中选择样本Ω＝{(S_t，A_t)|t∈Γ}，其中，Γ代表样本索引；使用机器学习中Adam优化器向最小化代价函数L(θ^u)的方向更新动作神经网络的参数θ^u，其中，

u(S_t)表示当前动作神经网络输入S_t所产生的输出；

5.根据权利要求3所述的边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：对于评论家神经网络，将从记忆内存中取得的样本表示为Ω_Γ＝{(S_t,A_t,R_t,S_t+1)|t∈Γ}，其中，Γ代表样本索引；定义损失函数，L(θ^Q)＝E_Γ(R_t+γmax Q(S_t',A′_t)-Q(S_t,A_t))²，其中，γ是折扣因子；

6.根据权利要求4或5任一项所述的边缘计算系统的多无人机任务卸载和资源分配的方法，其特征在于：定义系统状态S_t和动作A_t分别为

S_t∈{(X_k[n],Y_k[n],H),d_k,k'[n],d_k,m[n],u_m[n],k∈K,m∈M}