CN113645637B

CN113645637B - 超密集网络任务卸载方法、装置、计算机设备和存储介质

Info

Publication number: CN113645637B
Application number: CN202110783666.9A
Authority: CN
Inventors: 古博; 张旭; 林梓淇; 丁北辰; 姜善成; 韩瑜
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2022-09-16
Anticipated expiration: 2041-07-12
Also published as: CN113645637A

Abstract

本申请涉及一种超密集网络任务卸载方法、装置、计算机设备和存储介质，适用于通信领域资源分配技术领域。所述方法包括：获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息；基于位置信息，获取与终端设备对应的多个候选基站的属性信息；将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；将目标任务卸载至目标基站。采用本方法能够避免了出现目标基站不满足能耗需求的情况。

Description

超密集网络任务卸载方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信领域资源分配技术领域，特别是涉及一种超密集网络任务卸载方法、装置、计算机设备和存储介质。

背景技术

随着通信技术的不断发展，催生出大量新兴移动应用，例如云游戏、虚拟现实(Virtual Reality，VR)和增强现实(Augmented Reality，AR)等。为了满足此类应用正常工作，任务卸载技术应运而生。任务卸载技术利用通信技术将终端设备中计算密集型任务卸载到计算资源充足的服务器端进行处理，然后再由服务器端将计算结果回传至终端设备，从而实现了计算能力和时延的双重优化。但是由于云计算中卸载端服务器和终端设备端的终端设备相距甚远，导致其传输时延一直远高于计算任务的可容忍时延要求，使得终端设备体验较差。然而，近年来，将终端设备中计算密集型任务卸载到计算资源充足的边缘基站端进行处理，成为了研究的热点问题。

在传统方法中，以凸优化、博弈论等为代表的传统算法通常需在掌握全局信息的基础上对问题求解。

上述传统方法中，可能出现确定的基站难以满足能耗需求。

发明内容

基于此，有必要针对上述技术问题，提供一种超密集网络任务卸载方法、装置、计算机设备和存储介质，能够保证目标任务被卸载到目标基站所需的任务时延最短，且满足预设的能耗约束条件。

第一方面，提供了一种超密集网络任务卸载方法，方法包括：获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息；基于位置信息，获取与终端设备对应的多个候选基站的属性信息；将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站。其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；将目标任务卸载至目标基站。

在其中一个实施例中，将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站之前，方法还包括：确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据；对应地，将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，包括：将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。

在其中一个实施例中，预设深度强化学习模型包括目标演员网络以及回报函数，将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，包括：将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识；利用回报函数计算目标回报值，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。

在其中一个实施例中，获取终端设备中待卸载的目标任务，包括：将终端设备中的待卸载任务划分为多个子任务；从多个子任务中，确定待卸载的目标任务。

在其中一个实施例中，基于位置信息，获取与终端设备对应的多个候选基站的属性信息，包括：终端设备向基站发送广播信息，广播信息用于指示各基站向终端设备发送基站的属性信息；接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

在其中一个实施例中，预设深度强化学习模型的训练过程为：获取预设深度强化学习模型对应的训练集，训练集中包括多个训练任务的属性信息、训练任务对应的终端设备的位置信息以及训练任务对应的多个候选基站的属性信息；以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

在其中一个实施例中，预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数，并以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型，包括：将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性输入至初始演员网络，输出训练任务对应的训练基站的标识；将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性以及训练任务对应的训练基站的标识输入至初始评论家网络中，利用初始评论家网络对输入数据进行特征提取，输出将训练任务卸载到训练基站的训练评价值，训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度；利用回报函数计算将训练任务卸载到训练基站对应的训练回报值，训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据；根据训练回报值，训练初始评论家网络，得到目标评论家网络；根据训练评价值以及训练回报值，训练初始演员网络，得到目标演员网络。

第二方面，提拱了一种超密集网络任务卸载装置，装置包括：

第一获取模块，用于获取终端设备中待卸载的目标任务以及终端设备的位置信息；

第二获取模块，用于基于位置信息，获取与终端设备对应的多个候选基站的属性信息；

第一确定模块，用于将位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；

卸载模块，用于将目标任务卸载至目标基站。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述第一方面任一的超密集网络任务卸载方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面任一的超密集网络任务卸载方法。

上述超密集网络任务卸载方法、装置、计算机设备和存储介质，通过获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息，并基于位置信息，获取与终端设备对应的多个候选基站的属性信息。然后将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件。在确定了目标任务对应的目标基站之后，终端设备将目标任务卸载至目标基站。上述方法中，利用预设深度强化学习模型，确定目标任务对应的目标基站，且保证了将目标任务卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件，而不像现有技术中一样只考虑将目标任务卸载到目标基站所需的任务时延最短，并没有考虑目标基站的能耗是否满足约束条件。因此，本申请实施例，避免了出现目标基站不满足能耗需求的情况。

附图说明

图1为一个实施例中超密集网络任务卸载方法的应用环境图；

图2为一个实施例中超密集网络任务卸载方法的流程示意图；

图3为一个实施例中深度强化学习算法示意图；

图4为另一个实施例中超密集网络任务卸载方法的流程示意图；

图5为另一个实施例中超密集网络任务卸载方法的流程示意图；

图6为另一个实施例中深度强化学习模型的结构示意图；

图7为另一个实施例中深度强化学习模型的构架示意图；

图8为另一个实施例中超密集网络任务卸载方法的流程示意图；

图9为另一个实施例中超密集网络任务卸载方法的流程示意图；

图10为另一个实施例中超密集网络任务卸载方法的流程示意图；

图11为另一个实施例中超密集网络任务卸载方法的流程示意图；

图12为另一个实施例中超密集网络任务卸载方法的流程示意图；

图13为一个实施例中超密集网络任务卸载装置的结构框图；

图14为一个实施例中超密集网络任务卸载装置的结构框图；

图15为一个实施例中超密集网络任务卸载装置的结构框图；

图16为一个实施例中超密集网络任务卸载装置的结构框图；

图17为一个实施例中超密集网络任务卸载装置的结构框图；

图18为一个实施例中超密集网络任务卸载装置的结构框图；

图19为一个实施例中终端设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的超密集网络任务卸载方法，可以应用于如图1所示的应用环境中。其中，终端设备102通过网络与基站104进行通信。终端设备根据终端设备的位置信息，通过与基站之间的通信获取与终端设备对应的多个候选基站的属性信息。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，其中，本申请中的基站可以是由多个基站组成的服务器集群。

在本申请一个实施例中，如图2所示，提供了一种超密集网络任务卸载方法，以该方法应用于图1中的终端设备为例进行说明，包括以下步骤：

步骤201，终端设备获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息。

具体地，终端设备可以从多个待卸载的任务中，选择待卸载的目标任务，并且获取到目标任务的属性信息。其中，目标任务的属性信息可以包括目标任务的数据大小，目标任务的标识等信息。此外，终端设备还可以利用终端设备中安装的定位设备获取到终端设备的位置信息。

步骤202，终端设备基于位置信息，获取与终端设备对应的多个候选基站的属性信息。

具体地，终端设备可以以广播的形式，向周围的基站发送信号，并接收各基站返回的属性信息。其中，各基站返回的属性信息中，可以包括各基站的位置信息。终端设备根据终端设备的位置信息，以及各基站的位置信息，确定与终端设备对应的对个基站，并确定该多个基站对应的属性信息。

步骤203，终端设备将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站。

其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件。

具体地，终端设备可以将目标任务的任务属性信息、终端设备的位置信息以及与终端设备对应的多个候选基站的属性信息输入至预设深度强化学习模型中，终端设备利用预设深度强化学习模型对输入的数据进行特征提取，并基于提取后的特征，确定目标任务对应的目标基站。

其中，深度强化学习模型作为当下研究的热点，已经广泛应用于各个研究领域。如图3所示，深度强化学习模型在具体应用场景下用以学习某种应对策略，其通常以环境中可观测状态信息(State s_t)为输入，智能体评估后做出相应动作(Action a_t)并作用于环境，进而得到反馈(Reward r_t)用以改进策略。如此循环往复，直至智能体能够自如应对环境的动态变化。一般来说，强化学习可分为两类：一种是基于价值的方法(如DQN算法)，旨在最大化行动空间中每个行动的预期累积回报。因此，奖励越高，其对应动作越容易被选中；另一中是基于策略的方法，旨在直接学习一个参数化的策略π_θ。同时，基于策略方法中的参数θ可以利用以下公式通过反向梯度传递来更新：

其中，p^π为状态分布概率。而梯度可根据如下公式计算获得：

其中，π_θ(a_t|s_t)代表在给定状态信息s_t时选择动作a_t的概率。

然后，通过反向梯度传导对模型参数进行更新：

其中，α是学习过程中的步长设置。

在本申请实施例中，主要是基于深度强化学习模型中的异步优势演员评论家算法(Asynchronous Advantage Actor critic Algorithm,A3C)进行改进，得到预设深度强化学习模型。预设深度强化学习模型用于从多个基站中确定目标任务卸载过程中所需时延最短、且能耗满足预设的约束条件的基站。

步骤204，终端设备将目标任务卸载至目标基站。

具体地，在确定了目标任务对应的目标基站之后，终端设备可以将目标任务卸载到目标基站，该目标基站对目标任务进行计算之后，将计算结果发送至终端设备。

上述超密集网络任务卸载方法中，终端设备获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息，并基于位置信息，获取与终端设备对应的多个候选基站的属性信息。终端设备将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件。在确定了目标任务对应的目标基站之后，终端设备将目标任务卸载至目标基站。上述方法中，终端设备利用预设深度强化学习模型，确定目标任务对应的目标基站，且保证了将目标任务卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件，而不像现有技术中只考虑将目标任务卸载到目标基站所需的任务时延最短，并没有考虑终端设备的能耗是否满足约束条件。因此，本申请实施例，避免了出现目标基站不满足能耗需求的情况。

在本申请一个可选的实施例中，如图4所示，在上述步骤203“将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站”之前，上述方法还包括如下内容：

步骤401，终端设备确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据。

具体地，终端设备在每次确定了一个任务对应的基站之后，都要利用预设的算法计算将该任务卸载到卸载基站对应的时延数据和能耗数据。

为了提高预设深度强化学习模型输出的将目标任务卸载到目标基站的准确率，终端设备在将目标任务的任务属性信息、终端设备的位置信息以及与终端设备对应的多个候选基站的属性信息输入至预设深度强化学习模型之前，终端设备可以获取预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据。

示例性的，在一个支持边缘计算的超密集网络中，部署有N个基站，并利用移动蜂窝网络为该系统中的终端设备服务。其中，基站可以表示为Ν＝{1,2,...,N}。另外，本申请实施例假设在该边缘计算系统中有一终端设备可以随着时间和位置的变化而随机产生一系列计算密集型任务，其任务数量为M，记作Μ＝{1,2,...,M}。自然，在产生任务i时，终端设备所处位置则被表示为

通常，在该超密集网络中，由于基站的密集分布,在任意位置L_i都会有多个基站可用于任务卸载，并且这些基站可记作

进一步，本申请实施例假设每个任务i可被均分为K_i个大小相同的子任务，即

同时，由于各个子任务之间具有一定的关联性，因此子任务须按照顺序执行，即只有计算完成当下子任务K_i，才可以计算下一个子任务K_i+1。但是又由于子任务的计算结果是和基站服务器无关的，所以同一个任务的子任务又可以被卸载至不同的基站上进行计算。因此，当终端设备在卸载任务i时，可供选择的基站可以表示为

其中

为提高模型的泛化能力，本申请实施例进一步假设当终端设备在卸载任务i时，其位置是保持不变的，即只有当该任务的所有子任务都计算完成后，终端设备才会移动至下一个位置。

其中，时延数据包括传输时延、计算时延以及基站切换时延。

首先，传输时延是指将待卸载任务完全传输至对应基站所需要花费的时间。该时延除了受到自身传输功率和噪声干扰的影响外，还受到终端设备和基站之间距离等其他因素影响。

具体计算如下：

计算如下：

其中，

是所需传输的数据量的大小。

是指子任务k由终端设备传输至基站

时可以达到的上行速率，具体计算如下：

公式

其中，B代表终端设备和可连接基站之间传递数据时可利用的带宽；

代表终端设备将数据传输至被选择基站

时所能达到的信道增益。在子任务k传输过程中，终端设备将子任务传输至基站的传输功率表示为p_tx，噪声功率表示为σ²，而基站端的干扰功率可表示为

因此，信道增益

可定义如下：

其中，X是一个常数，代表路径损耗的调节因子；

和

分别代表快衰落增益系数和慢衰落增益系数；

代表终端设备到基站

之间的距离；而ζ则是路径损耗系数。

其次，对于子任务k计算所需的时延为：

其中，

表示子任务k计算所需的CPU周期数，而

代表基站

的计算能力，即CPU频率，通常该数为定值。

最后，在子任务k传输时，基站切换所需的时间，可以表示为：

其中，当k＝1，即传输第一个子任务时，只需要选择对应基站即可，并不存在切换问题；在传输其他子任务过程中，又可分为两种情况，分别是当Φ(·)＝0时，表示仍旧在原基站上进行计算，并不需要切换；否则，Φ(·)＝1，并且基站切换时间设定为τ_i。因此，对于产生于位置i的子任务k从传输到计算完成所需要的消耗的总时延可表示为：

因此，对于任务i∈Μ，则总时延可以计算为：

此外，对于终端设备而言，任务在卸载过程中所花费的能耗，通常包含有将任务传输至基站所需的能耗以及基站将计算结果传回终端设备时终端设备接收所需的能耗两部分。其中，由于计算结果的数据量十分微小，故此接收能耗可以忽略不计。于是，对于终端设备在位置i生成的子任务k，其传输至基站所需的能耗为：

因此，对于任务i所需的总的能耗可以根据下面的公式计算得知：

基于上述内容，终端设备可以计算出将该任务卸载到卸载基站对应的时延数据和能耗数据。

步骤402，终端设备将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。

具体地，终端设备在确定了预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据之后，终端设备可以将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，终端设备利用预设深度强化学习模型中的特征提取层对输入数据进行特征提取，并利用预设深度强化学习模型中的全连接层对提取后的特征进行计算，最终确定目标任务对应的目标基站。

在本申请实施例中，终端设备确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据，并将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。上述方法中，终端设备确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据，考虑到了目标任务与历史任务之间的联系，避免了将多个连续的任务卸载到同一基站的情况，导致基站无法完成任务。此外，根据历史任务卸载数据，终端设备可以更好地对终端设备对应的各个基站的计算能力以及传输性能进行了解。因此，终端设备将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站，可以提高将目标任务卸载到目标基站的准确性。

在本申请一个可选的实施例中，如图5所示，预设深度强化学习模型包括目标演员网络和回报函数。上述步骤203“将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站”可以包括以下内容：

步骤501，终端设备将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识。

其中，在本申请实施例中，预设深度强化学习模型可以是基于异步优势演员评论家算法(Asynchronous Advantage Actor critic Algorithm,A3C)进行改进得到的。如图6所示，异步优势演员评论家算法(Asynchronous Advantage Actor critic Algorithm,A3C)属于基于策略的算法，其中包含有演员(actor)和评论家(critic)两个网络结构。演员网络结构用以拟合策略π(a_t|s_t)，并且以全连接层(Fully Connected Layer)为结构主干，Tanh函数为激活函数，softmax函数的计算结果为最终输出(采取各动作的概率)；而评论家网络结构则通过拟合值函数V(s_t)来评价对于状态动作的优劣程度。

评论家网络结构同样以全连接层为主干，Tanh函数为激活函数，但是以一层全连接层作为最后的输出层。其中，演员网络和评论家网络中的权重参数分别表示为θ和θ_v，则其对应输出可进一步表示为π_θ(a_t|s_t)和

多数演员评论家算法是基于off policy策略的，即训练过程中使用经验池(Experience Replay Buffer)来存储由智能体和环境互动产生的数据，并利用随机采样的方式从经验池中小批量(minibatch)采样得到模型输入，然后计算得到梯度，最终通过利用反向传递对模型进行学习和更新，如此循环往复。

此外，A3C是一种on policy的强化学习算法，并通过多线程异步策略进行学习以提高算法性能。如图7所示，各线程中有一个从全局网络结构(Global network)复制而来的本地模型，并通过异步方式使相应线程中的本地模型和环境交互，从而得到状态、回报等相关数据。进而，可计算得到损失函数并进一步计算所需的梯度，最后同样通过并行异步的方式更新全局网络结构中参数θ和θ_v。该并行异步的学习框架不仅可以有效提高训练效率，而且可以增加智能体对环境的探索的多样性，有效降低数据间相关性，从而降低模型参数的耦合性，取得更为优异的性能表现。

具体地，在基于预设深度强化学习模型确定目标任务对应的目标基站的过程中，终端设备可以将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，终端设备可以利用演员网络中包括的至少一层特征提取层对输入的数据进行特征提取，并利用演员网络中的全连接层对提取的特征进行计算，最后输出目标基站的标识。

步骤502，终端设备利用回报函数计算目标回报值。

其中，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。其中，回报函数用于从多个基站中确定目标任务卸载过程中所需时延最短、且能耗满足预设的约束条件的基站。

具体地，目标回报值用来表征将目标任任务卸载到目标基站对应的任务时延情况和能耗情况。回报值越高说明将目标任务卸载到目标基站对应的任务时延越短，能耗越小。

示例性的，假设将目标任务卸载到目标基站对应的动作为

其对应回报函数定义如下：

其中，

其中，b是每个子任务的平均时延；η是用以调节任务传输能耗和总时延的非负权重因子；

是子任务k的传输能耗预算；δ代表设置的关于能耗的阈值；e_i,k(·)则代表能耗对应的回报，并可更加实际情况作出奖惩。当传输该子任务的能耗超过预算

时，该数值则为一个负数，即惩罚；当传输该子任务的能耗低于预算，且与给定预算相差不大于δ时，该数值为一个正数，即奖励；在其他情况下，该数值均为0。该函数如此设计的初衷不仅仅是为了约束子任务传输能耗，更是为了鼓励智能体在能耗约束内充分探索环境，以期望学习到更为优异的任务卸载策略。因此，在回报函数引导下，终端设备得以学习到一个最优的任务卸载策略，在兼顾任务时延和能耗两方面约束的情况下，将给定任务卸载至恰当的基站。

在本申请实施例中，终端设备将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识。终端设备利用回报函数计算目标回报值，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。从而可以保证将目标任务卸载到目标基站的任务时延最短，且满足能耗约束条件。

在本申请一个可选的实施例中，如图8所示，上述步骤201中的“获取终端设备中待卸载的目标任务”可以包括以下步骤：

步骤801，终端设备将终端设备中的待卸载任务划分为多个子任务。

具体地，终端设备在获取到卸载任务后，可以将待卸载任务划分为多个子任务。其中，划分的各个子任务的数据大小可以相同，也可以不同。其中，终端设备将待卸载任务划分为多个子任务的数量不定，可以根据待卸载任务的数据大小确定子任务的数量。

步骤802，终端设备从多个子任务中，确定待卸载的目标任务。

具体地，终端设备可以从多个子任务中，选择一个待卸载的目标任务中。

在本申请实施例中，终端设备将终端设备中的待卸载任务划分为多个子任务，并从多个子任务中确定待卸载的目标任务。由于子任务的数据大小要远远小于未划分之前的待卸载任务的数据大小，因此将待卸载任务划分为多个子任务，并将各子任务卸载到各基站可以保证各基站快速完成对各子任务的计算。从而可以避免将待卸载的大任务卸载到基站，导致基站不能完成待卸载任务的计算。

在本申请一个可选的实施例中，如图9所示，上述步骤203中的“基于位置信息，获取与终端设备对应的多个候选基站的属性信息”，可以包括以下步骤：

步骤901，终端设备向基站发送广播信息。

其中，广播信息用于指示各基站向终端设备发送基站的属性信息。

具体地，终端设备可以在卸载目标任务之前，向各终端设备周围的基站发送的广播信息。

各基站在接收到终端设备发送的广播信息之后，可以向终端设备发送基站的属性信息，建立与终端设备的之间的连接。

步骤902，终端设备接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

具体地，各基站发送的属性信息中可以包括各基站的位置信息，终端设备在接收到各基站发送的属性信息之后，可以根据各属性信息中包括的各基站的位置信息，确定各基站的位置。终端设备可以根据自身的位置信息以及各基站的位置信息，从接收到属性信息的各基站中，选择与终端设备距离相对较近的基站，作为与终端设备对应的多个基站，并确定与终端设备对应的多个候选基站的属性信息。

在本申请实施例中，终端设备向基站发送广播信息，并接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。上述方法中，终端设备通过向基站发送广播信息且接收各基站发送的属性信息，确定可以与终端设备建立连接的基站。然后根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，从建立连接的基站中确定与终端设备对应的多个候选基站的属性信息，从而保证终端设备对应的对个基站，可以与终端设备建立稳定连接，且与终端设备距离较近，从而可以保证将目标任务卸载到目标基站需要的任务时延最短，且满足基站的能耗约束条件。

在本申请一个可选的实施例中，如图10所示，上述预设深度强化学习模型的训练过程可以包括以下内容：

步骤1001，终端设备获取预设深度强化学习模型对应的训练集。

其中，训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息。

具体地，终端设备在训练预设深度强化学习模型之前，需要获取到预设深度强化学习模型对应的训练集。终端设备可以获取到多个训练任务的属性信息，其中，多个任务的属性信息可以包括各训练任务的数据大小信息、各训练的标识信息。终端设备还可以通过与基站之间的通信连接，获取到训练任务对应的对个候选基站的属性信息。终端设备可以根据预设的算法，计算将各训练任务卸载到各基站的时延数据和能耗数据，从而根据计算得到的时延数据和能耗数据，从多个候选基站中确定各训练任务对应的目标基站以及目标基站的标识信息。

通常，在该超密集网络中，由于基站的密集分布，在任意位置L_i都会有多个基站可用于任务卸载，并且这些基站可记作

其中

具体计算如下：

计算如下：

其中，

是所需传输的数据量的大小。

是指子任务k由终端设备传输至基站

时可以达到的上行速率，具体计算如下：

公式

代表终端设备将数据传输至被选择基站

因此，信道增益

可定义如下：

其中，X是一个常数，代表路径损耗的调节因子；

和

分别代表快衰落增益系数和慢衰落增益系数；

代表终端设备到基站

之间的距离；而ζ则是路径损耗系数。

其次，对于子任务k计算所需的时延为：

其中，

表示子任务k计算所需的CPU周期数，而

代表基站

的计算能力，即CPU频率，通常该数为定值。

因此，对于任务i∈Μ，则总时延可以计算为：

基于上述内容，终端设备可以计算出将该各训练任务卸载到各基站对应的时延数据以及能耗数据，根据计算出的时延数据以及能耗数据，从多个基站中确定出各训练任务对应的目标基站以及目标基站的标识信息。其中，将各训练任务卸载到目标基站对那个的任务卸载时延最短，且满足能耗的约束条件。

步骤1002，终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

具体地，终端设备可以将各训练任务的属性信息、各训练任务对应的多个候选基站的属性信息，输入至未经训练的深度强化学习模型中，并以深度强化学习模型为金标准训练深度强化学习模型，从而得到预设深度强化学习模型。

进一步地，上述预设深度强化学习模型在训练时，可以选择Adam优化器对预设深度强化学习模型进行优化，从而可以使预设深度强化学习模型能够快速收敛，并具有很好的泛化能力。

在上述利用Adam优化器对预设深度强化学习模型进行优化时，也可以为优化器设置一个学习率，在这里可以采用学习率范围测试(LR Range Test)的技术选择最佳学习率，并设置给优化器。该测试技术的学习率选择过程为：首先将学习率设置为一个很小的值，接着将预设深度强化学习模型和训练样本数据简单的迭代几次，每次迭代完成后增加学习率，并记录每次的训练损失(loss)，然后绘制LR Range Test图，一般理想的LR Range Test图包含三个区域：第一个区域学习率太小损失基本不变，第二个区域损失减小收敛很快，最后一个区域学习率太大以至于损失开始发散，那么可以将LR Range Test图中的最低点所对应的学习率作为最佳学习率，并将该最佳学习率作为Adam优化器的初始学习率，设置给优化器。

在本申请实施例中，终端设备获取预设深度强化学习模型对应的训练集，终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。在本申请实施例中，预设深度强化学习模型基于训练集训练得到，可以保证预设深度强化学习模型更加准确，从而保证基于预设深度强化学习模型得到的将目标任务卸载到目标基站更加准确。

在本申请一个可选的实施例中，预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数，如图11所示，上述步骤1002中的“以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型”，可以包括以下步骤：

步骤1101，终端设备将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性输入至初始演员网络，输出训练任务对应的训练基站的标识。

其中，初始演员网络可以包括第一演员网络和第二演员网络

步骤1102，终端设备将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性以及训练任务对应的训练基站的标识输入至初始评论家网络中，利用初始评论家网络对输入数据进行特征提取，输出将训练任务卸载到训练基站的训练评价值。

其中，训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度。

步骤1103，终端设备利用回报函数计算将训练任务卸载到训练基站对应的训练回报值。

其中，训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据。

步骤1104，终端设备根据训练回报值，训练初始评论家网络，得到目标评论家网络。

步骤1105，终端设备根据训练评价值以及训练回报值，训练初始演员网络，得到目标演员网络。

具体的训练和执行过程可以包括以下步骤：

1.该模型中包含有一个全局模型和多个从全局模型复制而来的子模型，并且每个子模型均包含有演员网络和评论家网络两部分。其中，演员/评论家网络包含有第一演员/评论家网络和第二演员/评论家网络。而且在训练前第二演员/评论家网络完全由第一演员/评论家网络复制而来；在训练时，第二演员/评论家网络按照一定的规则进行更新，例如，A表示第一演员/评论家网络的参数，B表示第二演员/评论家网络中的参数，则B＝αB+(1-α)A。

2.为方便表示，将“训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性、训练任务对应的多个候选基站的标识”称为状态信息；训练任务对应的卸载基站的标识称之为动作。

3.执行流程：首先终端设备获取所需的状态信息，将其输入到第一演员网络中，获得对应的动作以及对应的回报值。此时，环境会更新到下一状态，并且该时刻状态信息可以被终端设备获取。然后，终端设备会将该条经验存储起来用作后续的训练。通常，一条完整的经验包含有上述的状态信息、上述的动作、上述的回报数值以及上述的下一时刻的状态。

4.训练流程：通常完整的训练流程包含有从训练评论家网络到训练演员网络的多个循环，并且二者互为依赖。

训练评论家网络：首先各个子模型将上述经验中的状态信息s以及动作a输入到该子模型中的第一评论家网络中，获得评论值v；然后将上述经验中的下一时刻状态信息输入到该子模型中的第二演员网络中，获得对应动作(下一时刻动作)a'；然后将下一时刻状态信息s'和下一时刻动作a'输入到该子模型中的第二评论家网络中，计算获得下一时刻评论值v'。此时，利用上述评论值、经验中的回报值和下一时刻评论值共同计算损失，并根据损失计算梯度。最后利用该梯度更新全局模型中的第一评论家网络。

训练演员网络：首先各个子模型将上述经验中的状态信息输入到该子模型中的第一演员网络中并获得对应动作a，并将上述状态信息s和该动作输入到该子模型中的第一评论家网络中获得对应的评论值v。然后根据该评论值计算损失，并进一步计算梯度。最后，利用该梯度更新全局模型中的第一演员网络。

最后，根据上述步骤1中第二演员/评论家网络更新方式对全局模型中的第二演员/评论家网络进行更新，并将全局模型复制到各个子模型。训练结束得到的全局模型即为最终的模型。

为了更好的说明本申请的提供的超密集网络任务卸载方法，本申请提供一种超密集网络任务卸载方法的整体流程方面进行解释说明的实施例，如图12所示，该方法包括：

步骤1201，终端设备获取预设深度强化学习模型对应的训练集。

步骤1202，终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

步骤1203，终端设备将终端设备中的待卸载任务划分为多个子任务。

步骤1204，终端设备从多个子任务中，确定待卸载的目标任务。

步骤1205，终端设备向基站发送广播信息，广播信息用于指示各基站向终端设备发送基站的属性信息。

步骤1206，终端设备接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

步骤1207，终端设备确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据。

步骤1208，终端设备将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据输入至目标演员网络中，输出目标基站的标识。

步骤1209，终端设备利用回报函数计算目标回报值。

步骤1210，终端设备将目标任务卸载至目标基站。

应该理解的是，虽然图2、图4-5以及图8-12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在本申请一个实施例中，如图13所示，提供了一种超密集网络任务卸载装置1300，包括：第一获取模块1310、第二获取模块1320、第一确定模块1330和卸载模块1340，其中：

第一获取模块1310，用于获取终端设备中待卸载的目标任务以及终端设备的位置信息；

第二获取模块1320，用于基于位置信息，获取与终端设备对应的多个候选基站的属性信息；

第一确定模块1330，用于将位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；

卸载模块1340，用于将目标任务卸载至目标基站。

在本申请一个实施例中，如图14所示，上述超密集网络任务卸载装置1300，还包括第二确定模块1350，其中：

第二确定模块1350，用于确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据。

对应地，第一确定模块1330，用于将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。

在本申请一个实施例中，如图15所示，预设深度强化学习模型包括演员网络、评论家网络以及回报函数，上述第一确定模块1330，包括输出单元1331和确定单元1332，其中：

输出单元1331，用于将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识；

计算单元1332，用于利用回报函数计算目标回报值，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。

在本确定单元申请一个实施例中，如图16所示，第一获取模块1310，包括划分单元1311和确定单元1312，其中：

划分单元1311，用于将终端设备中的待卸载任务划分为多个子任务。

确定单元1312，用于从多个子任务中，确定待卸载的目标任务。

在本申请一个实施例中，如图17所示，第二获取模块1320，包括发送单元1321和接收单元1322，其中：

发送单元1321，用于终端设备向基站发送广播信息，广播信息用于指示各基站向终端设备发送基站的属性信息；

接收单元1322，用于接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

在本申请一个实施例中，如图18所示，上述超密集网络任务卸载装置1300，还包括：第三获取模块1360以及训练模块1370，其中

第三获取模块1360，用于获取预设深度强化学习模型对应的训练集，训练集中包括多个训练任务的属性信息、训练任务对应的终端设备的位置信息以及训练任务对应的多个候选基站的属性信息。

训练模块1370，用于以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

在本申请一个实施例中，训练模块1370，具体用于将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性输入至初始演员网络，输出训练任务对应的训练基站的标识；将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性以及训练任务对应的训练基站的标识输入至初始评论家网络中，利用初始评论家网络对输入数据进行特征提取，输出将训练任务卸载到训练基站的训练评价值，训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度；利用回报函数计算将训练任务卸载到训练基站对应的训练回报值，训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据；根据训练回报值，训练初始评论家网络，得到目标评论家网络；根据训练评价值以及训练回报值，训练初始演员网络，得到目标演员网络。

关于超密集网络任务卸载装置的具体限定可以参见上文中对于超密集网络任务卸载方法的限定，在此不再赘述。上述超密集网络任务卸载装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种超密集网络任务卸载方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息；基于位置信息，获取与终端设备对应的多个候选基站的属性信息；将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；将目标任务卸载至目标基站。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据；对应地，将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，包括：将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识；利用回报函数计算目标回报值，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将终端设备中的待卸载任务划分为多个子任务；从多个子任务中，确定待卸载的目标任务。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：终端设备向基站发送广播信息，广播信息用于指示各基站向终端设备发送基站的属性信息；接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设深度强化学习模型对应的训练集，训练集中包括多个训练任务的属性信息、训练任务对应的终端设备的位置信息以及训练任务对应的多个候选基站的属性信息；以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性输入至初始演员网络，输出训练任务对应的训练基站的标识；将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性以及训练任务对应的训练基站的标识输入至初始评论家网络中，利用初始评论家网络对输入数据进行特征提取，输出将训练任务卸载到训练基站的训练评价值，训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度；利用回报函数计算将训练任务卸载到训练基站对应的训练回报值，训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据；根据训练回报值，训练初始评论家网络，得到目标评论家网络；根据训练评价值以及训练回报值，训练初始演员网络，得到目标演员网络。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取终端设备中待卸载的目标任务的任务属性信息以及终端设备的位置信息；基于位置信息，获取与终端设备对应的多个候选基站的属性信息；将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，其中，目标任务被卸载到目标基站所需的任务时延最短且满足预设的能耗约束条件；将目标任务卸载至目标基站。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定预设数量的历史任务分别对应的卸载基站的标识以及将各历史任务卸载到各卸载基站对应的时延数据和能耗数据；对应地，将任务属性信息、位置信息以及多个候选基站的属性信息输入至预设深度强化学习模型，确定目标任务对应的目标基站，包括：将任务属性信息、位置信息、多个候选基站的属性信息、各卸载基站的标识以及时延数据和能耗数据，输入至预设深度强化学习模型，确定目标任务对应的目标基站。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将任务属性信息、位置信息以及多个候选基站的属性信息输入至目标演员网络中，输出目标基站的标识；利用回报函数计算目标回报值，目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将终端设备中的待卸载任务划分为多个子任务；从多个子任务中，确定待卸载的目标任务。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：终端设备向基站发送广播信息，广播信息用于指示各基站向终端设备发送基站的属性信息；接收到各基站发送的属性信息，根据终端设备的位置信息以及各属性信息中包括的基站的位置信息，确定与终端设备对应的多个候选基站的属性信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取预设深度强化学习模型对应的训练集，训练集中包括多个训练任务的属性信息、训练任务对应的终端设备的位置信息以及训练任务对应的多个候选基站的属性信息；以训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到预设深度强化学习模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性输入至初始演员网络，输出训练任务对应的训练基站的标识；将训练任务的属性信息、训练任务对应的终端设备的位置信息、训练任务对应的多个候选基站的属性以及训练任务对应的训练基站的标识输入至初始评论家网络中，利用初始评论家网络对输入数据进行特征提取，输出将训练任务卸载到训练基站的训练评价值，训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度；利用回报函数计算将训练任务卸载到训练基站对应的训练回报值，训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据；根据训练回报值，训练初始评论家网络，得到目标评论家网络；根据训练评价值以及训练回报值，训练初始演员网络，得到目标演员网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种超密集网络任务卸载方法，其特征在于，所述方法包括：

将终端设备中的待卸载任务划分为多个子任务；

从所述多个子任务中，确定待卸载的目标任务；

获取所述待卸载的目标任务的任务属性信息以及所述终端设备的位置信息；

基于所述位置信息，获取与所述终端设备对应的多个候选基站的属性信息；

确定预设数量的历史任务分别对应的卸载基站的标识以及将各所述历史任务卸载到各所述卸载基站对应的时延数据和能耗数据，所述时延数据包括传输时延、计算时延以及基站切换时延，所述能耗数据包括将任务传输至基站所需的能耗；

将所述任务属性信息、所述位置信息、多个所述候选基站的属性信息、各所述卸载基站的标识以及所述时延数据和能耗数据，输入至预设深度强化学习模型，确定所述目标任务对应的目标基站，其中，所述目标任务被卸载到所述目标基站所需的任务时延最短且满足预设的能耗约束条件；

将所述目标任务卸载至所述目标基站。

2.根据权利要求1所述的方法，其特征在于，所述预设深度强化学习模型包括目标演员网络以及回报函数，所述将所述任务属性信息、所述位置信息以及多个所述候选基站的属性信息输入至预设深度强化学习模型，确定所述目标任务对应的目标基站，包括：

将所述任务属性信息、所述位置信息以及多个所述候选基站的属性信息输入至所述目标演员网络中，输出所述目标基站的标识；

利用所述回报函数计算目标回报值，所述目标回报值用于表征将所述目标任务卸载到所述目标基站对应的时延数据以及能耗数据。

3.根据权利要求1所述的方法，其特征在于，所述基于所述位置信息，获取与所述终端设备对应的多个候选基站的属性信息，包括：

所述终端设备向所述基站发送广播信息，所述广播信息用于指示各所述基站向所述终端设备发送基站的属性信息；

接收到各所述基站发送的属性信息，根据所述终端设备的位置信息以及各所述属性信息中包括的基站的位置信息，确定与所述终端设备对应的多个所述候选基站的属性信息。

4.根据权利要求1所述的方法，其特征在于，所述预设深度强化学习模型的训练过程为：

获取所述预设深度强化学习模型对应的训练集，所述训练集中包括多个训练任务的属性信息、所述训练任务对应的所述终端设备的位置信息以及所述训练任务对应的多个候选基站的属性信息；

以所述训练任务的属性信息、所述训练任务对应的所述终端设备的位置信息、所述训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到所述预设深度强化学习模型。

5.根据权利要求4所述的方法，其特征在于，所述预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数，所述以所述训练任务的属性信息、所述训练任务对应的所述终端设备的位置信息、所述训练任务对应的多个候选基站的属性信息为输入，训练深度强化学习模型，得到所述预设深度强化学习模型，包括：

将所述训练任务的属性信息、所述训练任务对应的所述终端设备的位置信息、所述训练任务对应的多个候选基站的属性输入至初始演员网络，输出所述训练任务对应的训练基站的标识；

将所述训练任务的属性信息、所述训练任务对应的所述终端设备的位置信息、所述训练任务对应的多个候选基站的属性以及所述训练任务对应的训练基站的标识输入至初始评论家网络中，利用所述初始评论家网络对输入数据进行特征提取，输出将所述训练任务卸载到所述训练基站的训练评价值，所述训练评价值用于表征将所述训练任务卸载到所述任务对应的训练基站的匹配度；

利用所述回报函数计算将所述训练任务卸载到所述训练基站对应的训练回报值，所述训练回报值用于表征将所述训练任务卸载到所述训练基站对应的时延数据以及能耗数据；

根据所述训练回报值，训练所述初始评论家网络，得到所述目标评论家网络；

根据所述训练评价值以及所述训练回报值，训练所述初始演员网络，得到所述目标演员网络。

6.一种超密集网络任务卸载装置，其特征在于，所述装置包括：

第一获取模块，用于获取终端设备中待卸载的目标任务以及所述终端设备的位置信息；

第二获取模块，用于基于所述位置信息，获取与所述终端设备对应的多个候选基站的属性信息；

第二确定模块，用于确定预设数量的历史任务分别对应的卸载基站的标识以及将各所述历史任务卸载到各所述卸载基站对应的时延数据和能耗数据，所述时延数据包括传输时延、计算时延以及基站切换时延，所述能耗数据包括将任务传输至基站所需的能耗；

第一确定模块，用于将所述任务属性信息、所述位置信息、多个所述候选基站的属性信息、各所述卸载基站的标识以及所述时延数据和能耗数据，输入至预设深度强化学习模型，确定所述目标任务对应的目标基站，其中，所述目标任务被卸载到所述目标基站所需的任务时延最短且满足预设的能耗约束条件；

卸载模块，用于将所述目标任务卸载至所述目标基站。

7.根据权利要求6所述的装置，其特征在于，所述第一获取模块包括划分单元和确定单元；

划分单元，用于将所述终端设备中的待卸载任务划分为多个子任务；

确定单元，用于从所述多个子任务中，确定待卸载的所述目标任务。

8.根据权利要求6所述的装置，其特征在于，所述第二获取模块包括发送单元和接收单元；

发送单元，用于所述终端设备向所述基站发送广播信息，所述广播信息用于指示各所述基站向所述终端设备发送基站的属性信息；

接收单元，用于接收到各所述基站发送的属性信息，根据所述终端设备的位置信息以及各所述属性信息中包括的基站的位置信息，确定与所述终端设备对应的多个所述候选基站的属性信息。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。