CN112835715A

CN112835715A - 基于强化学习的无人机任务卸载策略的确定方法和装置

Info

Publication number: CN112835715A
Application number: CN202110135702.0A
Authority: CN
Inventors: 罗晶晶; 李慧; 郑福春; 高林; 张钦宇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-25
Anticipated expiration: 2041-02-01
Also published as: CN112835715B

Abstract

本申请提供基于强化学习的无人机任务卸载策略的确定方法和装置，所述方法包括：S1:将无人机的计算任务建模为DAG模型，计算任务由多个不可再拆分且有序执行的子计算任务组成；S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价，所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。本申请所提出的基于强化学习的无人机用户自适应任务卸载策略，能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价。

Description

基于强化学习的无人机任务卸载策略的确定方法和装置

技术领域

本申请涉及无人机与边缘计算技术领域，具体而言，涉及基于强化学习的无人机任务卸载策略的确定方法和装置。

背景技术

近年来，无人机由于高移动性、易于部署、低成本和独特的空中视角特性被广泛地应用在生活中的各个领域，例如公共安全监控、石油与天然气领域等。在这些领域中无人机可以替代人类做一些繁冗或危险的服务应用任务，例如对一片区域内的物体或场景进行探测、分类和识别。在这些应用中，无人机通过高分辨率摄像头对作业区域实时地采集图片，并立即执行图像特征识别算法对采集到的图片中的特征进行检测、分类和识别。这类计算任务是计算密集型的，需要专用的、功能强大的处理器。尽管近几年无人机的计算能力和本地车载电池能量技术有所提高，但是无人机本地的车载能量和计算能力依旧是十分有限的，在无人机本地执行计算密度大的计算任务会导致任务的响应时间和无人机的电池使用寿命大大受损。

为了解决上述问题，研究者们考虑将无人机用户计算密集的任务卸载到云服务器处理，然而由于云服务器距离用户端较远且近几年移动用户设备呈爆炸式增长，将无人机计算任务卸载到云服务器可能会导致服务延时比较大。移动边缘计算的出现解决了云服务器距离用户端较远的问题，边缘计算将云服务器的计算资源下降到用户端附近，用户通过边缘接入网络即可利用到额外的计算资源辅助计算，这样可以大大降低用户的服务延时。

然而，由于移动边缘网络的动态性和复杂性，无人机用户和边缘网络接入点的无线通信信道受干扰、路径损耗、阴影和衰落现象的影响，通信信道状态通常是时变的，时变的通信信道给无人机用户的任务卸载带来一定的挑战性。当信道状态较好时，无人机将计算任务直接卸载到边缘服务器所需要的传输能量较少，可能是一种比较好的卸载策略；但当信道状态较差时，将计算任务直接卸载到边缘服务器处理会导致无人机传输能量损耗和任务服务延时会很大。

因此，在时变通信信道环境下，如何确定任务卸载策略以减小无人机传输能量损耗和任务服务延时具有重要意义。

发明内容

有鉴于此，本申请提供基于强化学习的无人机任务卸载策略的确定方法和装置，以克服现有技术的缺陷。

为实现上述目的，本申请采用的技术方案如下：

第一方面，本申请提供基于强化学习的无人机任务卸载策略的确定方法，所述方法应用于移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器，所述任务卸载策略包括任务卸载决策和本地资源分配决策，所述方法包括：

S1:将无人机的计算任务建模为DAG模型，计算任务由多个不可再拆分且有序执行的子计算任务组成；

S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价，所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。

可选的，所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型，具体为：

定义一个指示变量m_j∈{0,1,2,...,M}来表示第j个计算任务的任务卸载决策，即计算任务前m_j个子计算任务在无人机本地计算处理，后M-m_j个子计算任务在边缘服务器计算处理；

具体的DAG拆分模型如下：

A(m_j)＝{L(m_j),B(m_j),Z(m_j)}

其中L(m_j)表示第j个计算任务的拆分后所需的无人机本地计算资源； B(m_j)表示第j个计算任务的拆分后所需的边缘服务器计算资源；Z(m_j)表示第j个计算任务的拆分后无人机需要传输的输入比特量。

可选的，所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值，对于无人机第j个计算任务，计算代价如下式所示：

C(j)＝αT(j)+βE(j)

其中，α,β为两个权重因子α,β∈(0,1)且α+β＝1，分别表示计算任务延时损耗和无人机处理计算任务的能量损耗的加权系数。

可选的，所述计算任务的延时损耗包括：计算任务在本地计算处理时间，无人机传输计算任务需要卸载的数据到边缘服务器的时间，以及计算任务在边缘服务器计算处理的时间；对于无人机第j个计算任务：

根据任务拆分模型，第j个计算任务在本地计算处理的时间为：

无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的时间为：

第j个计算任务在边缘服务器计算处理的时间为：

因此，无人机第j个计算任务计算处理的总时间如下式所示：

无人机处理计算任务的能量损耗包括：无人机计算处理计算任务的能量损耗，以及无人机卸载计算任务需要传输的数据到边缘服务器的能量损耗。对于无人机的第j个计算任务：

根据任务拆分模型，无人机计算处理第j个计算任务的能量损耗为：

E_l(j)＝L(m_j)kf_u ²

其中，kf_u ²表示无人机单位计算周期的能量损耗，k为系数，其值取决于芯片的架构；

无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的能量损耗为：

E_off(j)＝T_off(j)P；

因此第j个计算任务计算计算处理所需的无人机总能量消耗如下式所示：

可选的，所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略的具体方法为：

S2-1:利用强化学习工具，将无人机计算任务的任务卸载策略问题以强化学习的角度建模，定义强化学习关键要素如下：

1)代理人：无人机用户

2)行为空间：无人机不同的卸载策略和本地资源分配的组合集合

行为

其中m_j∈{0,1,...,M}，

为无人机用户分配给第j个计算任务的CPU频率，

行为空间的大小为M×N；

3)收益：每个行为的收益为计算任务计算代价的相反数，

π为无人机用户的选择行为策略，a^*为在策略π下最优的行为；

4)价值函数：每个行为的价值函数为行为收益的平均值,

q(a^*)表示无人机在策略π下给第j个计算任务选择的最优的行为a^*的价值函数，N(a^*)为无人机选择最优行为a^*的次数；当无人机选择某个行为，就可以获得该行为的增益R(j,π)；

S2-2:确定基于强化学习的任务卸载策略为：

1.初始化：J＝total，j＝0；对于任意的a∈A，N(a)＝0，q(a)＝0，total为计算任务的总数；设置探索系数ε＝0.01；

2.重复：当有一个计算任务到达无人机上时，j＝j+1；

1)第j个计算任务的卸载决策和资源分配决策为，

为行为的置信度不确定项，j为目前到达的任务数，N(a)为目前选择行为a的次数，系数ε是探索系数，它的值越大，代表行为的不确定项占比越大，代理人对行为的探索越多；

2)得到动作

的reward，

3)更新N(a^*)+＝1，

3.直到：J＝total

其中f_b为边缘服务器CPU频率，P为无人机用户的传输功率，R(j)为无人机和基站之间的通信信道传输速率。

第二方面，本申请提供基于强化学习的无人机任务卸载策略的确定装置，所述装置应用于移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器，所述任务卸载策略包括任务卸载决策和本地资源分配决策，所述装置包括：

建模模块，用于将无人机的计算任务建模为DAG模型，计算任务由多个不可再拆分且有序执行的子计算任务组成；

确定模块，用于确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价，所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。

本申请的有益效果是：

1、将无人机每个计算任务拆分成本地计算处理部分和边缘计算处理部分，减少了无人机通信传输的数据量大小，进而减少了无人机通信的延时损耗和能量损耗，系统达到了更加优良的性能；

2、本申请中所构建的无人机用户计算任务DAG拆分模型具有可操作性强和精确度高等特点，可为无人机用户任务卸载研究提供一定的启发意义；

3、本申请所提出的基于强化学习的无人机用户任务卸载策略是一种自适应的任务卸载策略，能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价；

4、基于强化学习的无人机用户自适应任务卸载策略可以实时地根据历史经验学习最优的任务卸载决策，可以有效减少系统实时的信令开销。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为基于强化学习的无人机任务卸载策略的确定方法流程图；

图2为本申请移动边缘网络系统架构图；

图3为本申请图片特征识别的DAG举例模型图；

图4为基于强化学习的无人机任务卸载策略的确定装置结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

如图1所示，本申请提供基于强化学习的无人机任务卸载策略的确定方法，所述方法应用于如图2所示的移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器；所述任务卸载策略包括任务卸载决策和本地资源分配决策。

在图2所示的系统架构中，无人机用户在移动边缘网络区域执行应用服务任务，在执行任务的过程中会不断地生成计算任务。无人机本地CPU 频率记为f_u，f_u∈{f₁,f₂,...,f_N}。该移动边缘网络由单基站覆盖，基站配置了边缘服务器可为无人机提供边缘计算服务，边缘服务器CPU频率记为f_b。无人机可以与基站进行无线通信，由于边缘环境和无人机的动态性，无人机和基站的通信信道状态是时变的。

所述确定方法包括：

首先构造无人机用户的计算任务模型。根据无人机用户实际的应用背景，将无人机的计算任务建模为DAG模型，计算任务由多个不可再拆分且有序执行的子计算任务组成。

将无人机每个计算任务进行拆分计算处理，例如，将计算任务先在本地预处理一些计算密度小的子计算任务以寻求减少输入数据量后再将中间数据卸载到边缘服务器处理，以使得无人机用户能高效地利用本地和边缘的计算资源。此外，将任务在本地预处理后，可以减少无人机通信传输的数据量大小，进而减少无人机通信的延时损耗和能量损耗，以达到系统更加优良的性能。

作为可选的实施方式，所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型，具体为：

具体的DAG拆分模型如下：

A(m_j)＝{L(m_j),B(m_j),Z(m_j)} (1)

本申请中，搭建任务卸载模型之前可以先对无人机计算任务进行建模。

考虑无人机执行的应用服务是计算密集型的，例如农作物生长状态识别、电网线路状态识别等。在这些应用服务中，无人机通过配置的高分辨率摄像头对工作区域进行持续的图片采集，无人机的计算任务是对采集到的一组图片进行特征识别，如图3所示，该计算任务由多个互相依赖且有序执行的子计算任务组成。

使用DAG(Directed Acyclic Graph)模型来描述无人机的计算任务，记为G＝{V,E}，V表示图表中所有顶点的集合，V＝{1,2,...,i...,M}，顶点i表示计算任务的第i个子计算任务，与顶点i相关的两个参数是

和f_i(·)，其中

表示第i个子计算任务的计算密度，即单位比特输入数据所需要的CPU计算周期数；f_i(·)表示第i个子计算任务输出数据量和输入数据量的数学关系，使用符号ω_i表示第i个子计算任务的计算输入比特量，φ_i表示第i个子计算任务的计算输出比特量，则φ_i＝f_i(ω_i)。E表示图表边缘的集合，每个边缘 (i,i+1)∈E表示第i+1个子计算任务必须在第i个子计算任务处理完成后才可以开始执行，与边缘相关的一个参数是q_(i,i+1)，表示从第i个子计算任务到第 i+1个子计算任务需要传输的数据比特量。根据计算任务的结构易知，第i个子计算任务到第i+1个子计算任务需要传输的数据比特量就是第i个子计算任务的计算输入比特量，即q_(i,i+1)＝φ_i＝ω_i+1,i∈(1,...,M-1)。

假设无人机在服务期间生成的计算任务总数是有限的，记为J，但计算任务是任意到达的。无人机每个计算任务j∈{1,2,...,J}的DAG模型是相同的，但是每个计算任务的初始输入比特量是不同的，即每个计算任务异构。假设无人机第j个计算任务的初始输入比特量为I_j，使用符号

表示无人机第 j个计算任务的第i个子计算任务的计算输入比特量，则

其中

表示无人机第j个计算任务的第i个子计算任务的计算输出比特量，则

对于公式(1)所示的DAG拆分模型，当m_j＝0时，表示计算任务全部卸载到边缘服务器计算处理，则L(m_j)＝0，

当 m_j∈{1,...,M-1}时，表示计算任务首先在本地计算处理一部分步骤，再将本地计算处理的结果卸载到边缘服务器继续计算处理接下来的步骤，则

当m_j＝M时，表示计算任务全部在无人机本地处理，则

B(m_j)＝0，Z_j(m)＝0。

根据无人机用户实际应用背景，将无人机用户的计算任务建模为DAG 模型，并在DAG拆分模型下构建了无人机用户在移动边缘网络中部分任务卸载模型，本申请中所构建的无人机用户计算任务模型和计算任务拆分模型具有可操作性强和精确度高等特点，可以为无人机用户任务卸载研究提供一定的启发意义。

作为可选的实施方式，所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值，对于无人机第j个计算任务，计算代价如下式所示：

C(j)＝αT(j)+βE(j) (2)

本申请关注的无人机任务卸载的性能指标不仅包括了无人机计算任务的延时损耗，还关注了无人机处理计算任务的能量消耗(忽略计算结果反馈的时间和能量消耗)。

由于延时损耗和能量损耗均与无人机与基站之间的信道状态相关，因此，先建立信道状态模型。

当计算任务需要卸载到边缘服务器计算处理时，无人机传输计算输入数据给边缘基站。我们假设无人机用户使用固定的传输功率，记为P，无人机和基站通信信道带宽固定为W。根据香农公式，当第j个计算任务到达无人机时，无人机和基站的通信信道传输速率为：

N₀表示加性高斯白噪声的功率谱密度，h(j)表示第j个计算任务到达时无人机和基站通信信道的功率增益，其值与无人机和基站通信信道的干扰、路径损耗、阴影和衰落现象有关。由于无人机和边缘网络环境的动态性，无人机和基站的通信信道增益是时变的。

下面基于上述建立的信道状态模型来分别计算延时损耗和能量损耗。

1、延时损耗

无人机计算任务的延时损耗主要包括四个部分：(a)计算任务在本地计算处理时间；(b)无人机传输计算任务需要卸载的数据到边缘服务器的时间；(c)计算任务在边缘服务器计算处理的时间；(d)计算结果回传时间，由于计算结果较少，回传时间忽略不计。对于无人机第j个计算任务：

第j个计算任务在边缘服务器计算处理的时间为：

因此，无人机第j个计算任务计算处理的总时间如下式所示：

2、能量损耗

无人机处理计算任务的能量损耗主要包括两个部分：(a)无人机计算处理计算任务的能量损耗；(b)无人机卸载计算任务需要传输的数据到边缘服务器的能量损耗。对于无人机的第j个计算任务：

E_l(j)＝L(m_j)kf_u ² (8)

其中，kf_u ²表示无人机单位计算周期的能量损耗，k为系数，其值取决于芯片的架构。

E_off(j)＝T_off(j)P (9)

3、计算代价

如公式(2)所示，对于无人机第j个计算任务，计算代价为 C(j)＝αT(j)+βE(j)，在该式中，若α值较大，说明此系统更关注无人机计算任务延时损耗的影响；若β值较大，则说明此系统更关注无人机处理计算任务的能量消耗。研究表明，用户更高的CPU频率可以缩短计算任务处理的时间，但单位CPU的能量损耗又与CPU频率的平方成正比，因此当 CPU频率增加时，用户计算处理任务的能量损耗也会增加。由于边缘服务器有持续稳定的能量供应，其可以为无人机用户持续提供最高的CPU频率f_b以最小化任务延时损耗。然而，由于无人机用户车载能量是有限，可以应用动态电压和频率缩放(dynamic voltage and frequencyscaling，DVFS) 技术来优化无人机用户分配给第j个计算任务的CPU频率

以便在计算任务的延时损耗和能量损耗之间达到性能平衡。

无人机工作期间内所有计算任务的平均计算代价如下式所示：

通过优化每个计算任务的任务卸载决策m_j和本地资源分配决策

最小化无人机工作期间内所有计算任务的平均计算代价，定义优化问题如下：

第一个限制条件约束了每个计算任务的卸载决策，第二个限制条件约束了本地CPU频率的取值范围。

为了达到最小化无人机工作期间内所有计算任务的平均计算代价，需要对无人机产生的每个计算任务，做出在线的任务卸载决策。在实际网络中，时变的通信信道状态难以实时获取，当实时的信道状态未知时，本申请提出一种基于强化学习的自适应任务卸载策略来求解上述优化问题。将无人机在线的任务卸载决策问题以强化学习的角度建模。强化学习关键要素如下：

1)代理人：无人机用户

行为

其中m_j∈{0,1,...,M}，

为无人机用户分配给第j个计算任务的CPU频率，

行为空间的大小为M×N；

3)收益：每个行为的收益为计算任务计算代价的相反数，

π是无人机为每个到达的任务选择任务卸载决策和本地资源分配决策的一种策略，即无人机选择行为的策略，

是无人机在策略π下为第j个计算任务做出的最优的任务卸载决策m_j ^*和本地资源分配决策

的组合，即无人机最优的行为记为a^*。

4)价值函数：每个行为的价值函数为行为收益的平均值,

q(a)为无人机的每个行为a的价值函数，N(a)为无人机选择行为a的次数；q(a^*)表示无人机在策略π下给第j个计算任务选择的最优的行为a^*的价值函数，N(a^*)为无人机选择最优行为a^*的次数；当无人机选择某个行为，就可以获得该行为的增益R(j,π)，获取新的增益后该行为的价值函数(增益的均值)就需要更新。

在强化学习中，代理人的最终目标是最大化长期累计的收益，因此我们将优化问题重新构建成：

从强化学习的角度解决上述的优化问题，每当有一个计算任务到达无人机时，无人机用户根据历史经验评估每个卸载决策的潜力选择最优的卸载策略，再根据反馈的收益更新每个卸载策略的价值。通过这种方式，无人机无需获取时变的通信信道状态，利用历史卸载经验确定任务卸载策略。具体的算法流程如下：

2.重复：当有一个计算任务到达无人机上时，j＝j+1；

1)第j个计算任务的卸载决策和资源分配决策为，

在以强化学习的角度对问题建模中，将无人机的任务卸载决策和本地资源分配决策的组合作为无人机的一个行为

A为所有行为的集合。此时需要设计策略π以使得根据设计出的策略π能够找出最优的行为a^*。本申请使用的策略是基于强化学习的置信度上限的行为选择思想，即使用公式

来衡量行为的置信度以选择最优的行为。其中q(a) 为每个行为的价值，用于衡量行为能够获取的平均增益大小；

为行为的置信度不确定项，j为目前到达的任务数，N(a)为目前选择行为a的次数。当一个行为被选中时，分母项N(a)增加，不确定性下降，但其余未选中的行为由于分母项不变，分子项增加，未选中的行为的不确定性增加，因此可以使用置信度不确定项来实现行为的探索和利用，系数ε是探索系数，它的值越大，代表行为的不确定项占比越大，代理人对行为的探索越多。

2)得到动作

的reward，

3)更新N(a^*)+＝1，

3.直到：J＝total

其中f_b为边缘服务器CPU频率，P为无人机用户的传输功率，R(j)为无人机和基站之间的通信信道传输速率。在实际操作中，上述计算任务的总数例如可设置为300，也可设置为其他的合理数值，本申请对此不作限定。

本申请所提出的基于强化学习的无人机用户自适应任务卸载策略，能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价；基于强化学习的无人机用户自适应任务卸载策略可以实时地根据历史经验学习最优的任务卸载决策，可以有效减少系统实时的信令开销。

图4为基于强化学习的无人机任务卸载策略的确定装置结构框图，所述装置应用于移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器，所述任务卸载策略包括任务卸载决策和本地资源分配决策，如图4所示，所述装置包括：

建模模块410，用于将无人机的计算任务建模为DAG模型，计算任务由多个不可再拆分且有序执行的子计算任务组成；

确定模块420，用于确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价，所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。

在本申请所提供的实施例中，应该理解到，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.基于强化学习的无人机任务卸载策略的确定方法，其特征在于，所述方法应用于移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器，所述任务卸载策略包括任务卸载决策和本地资源分配决策，所述方法包括：

2.如权利要求1所述的基于强化学习的无人机任务卸载策略的确定方法，其特征在于，所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型，具体为：

具体的DAG拆分模型如下：

A(m_j)＝{L(m_j),B(m_j),Z(m_j)}

其中L(m_j)表示第j个计算任务的拆分后所需的无人机本地计算资源；B(m_j)表示第j个计算任务的拆分后所需的边缘服务器计算资源；Z(m_j)表示第j个计算任务的拆分后无人机需要传输的输入比特量。

3.如权利要求1或2所述的基于强化学习的无人机任务卸载策略的确定方法，其特征在于，所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值，对于无人机第j个计算任务，计算代价如下式所示：

C(j)＝αT(j)+βE(j)

4.如权利要求3所述的基于强化学习的无人机任务卸载策略的确定方法，其特征在于，所述计算任务的延时损耗包括：计算任务在本地计算处理时间，无人机传输计算任务需要卸载的数据到边缘服务器的时间，以及计算任务在边缘服务器计算处理的时间；对于无人机第j个计算任务：

第j个计算任务在边缘服务器计算处理的时间为：

因此，无人机第j个计算任务计算处理的总时间如下式所示：

E_l(j)＝L(m_j)kf_u ²

E_off(j)＝T_off(j)P；

5.如权利要求4所述的基于强化学习的无人机任务卸载策略的确定方法，其特征在于，所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略的具体方法为：

1)代理人：无人机用户

行为

其中m_j∈{0,1,...,M}，

为无人机用户分配给第j个计算任务的CPU频率，

行为空间的大小为M×N；

3)收益：每个行为的收益为计算任务计算代价的相反数，

π为无人机用户的任务卸载策略，a^*为在策略π下最优的任务卸载策略；

4)价值函数：每个行为的价值函数为行为收益的平均值,

S2-2:确定基于强化学习的任务卸载策略为：

2.重复：当有一个计算任务到达无人机上时，j＝j+1；

1)第j个计算任务的卸载决策和资源分配决策为，

2)得到动作

的reward，

3)更新N(a^*)+＝1，

3.直到：J＝total

6.基于强化学习的无人机任务卸载策略的确定装置，其特征在于，所述装置应用于移动边缘网络系统，所述移动边缘网络系统包括基站，以及在移动边缘网络区域执行应用服务并生成计算任务的无人机，所述基站配置了用于为无人机提供边缘计算服务的边缘服务器，所述任务卸载策略包括任务卸载决策和本地资源分配决策，所述装置包括：