CN116260871A

CN116260871A - 一种基于本地和边缘协同缓存的独立任务卸载方法

Info

Publication number: CN116260871A
Application number: CN202310200404.4A
Authority: CN
Inventors: 周川; 徐鹏程
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-13

Abstract

本发明公开了一种基于本地和边缘协同缓存的独立任务卸载方法，引入了服务缓存的概念，提出一种基于服务缓存的任务卸载和资源分配方法。首先以能量消耗和时间延迟的加权和为优化目标，将任务卸载、服务缓存和资源分配问题表述为混合整数非线性规划问题，并建立对应的通信模型、计算模型和缓存模型；其次，将上述问题近似为一个马尔可夫决策过程，并提出了一种基于深度确定性策略梯度算法来解决任务卸载、服务缓存和资源分配问题，最终降低了任务卸载过程中带来的能量消耗和时间延迟。

Description

一种基于本地和边缘协同缓存的独立任务卸载方法

技术领域

本发明涉及大数据、边缘计算技术，具体涉及一种基于本地和边缘协同缓存的独立任务卸载方法。

背景技术

近年来，物联网(IoT)是信息通信技术的重大革命之一。物联网将互联网连接从传统智能设备扩展到交通及工业制造领域，必然会进行大量计算，进而产生海量的数据。根据国际数据公司(International Data Corporation)发布关于全球数据流量预测报告显示，在2025年全球数据流量预测将会到达163泽字节(Zettabytes)，为了降低处理海量数据的成本，当下一种有效的处理方式是利用云计算，通过网络“云”将巨大的数据计算处理程序分散为无数个小程序，然后多个服务器组成的系统网络对这些小程序进行处理，最终将得到结果返回给用户,并且可以在极短时间内(几秒钟)完成对海量数据的处理，从而达到强大的网络服务。然而由于新兴应用的快速普及，基于云计算的集中式物联网方案所产生的本地设备端与云端之间的距离较远产生的高延迟问题以及基站与核心网之间的回程链路的能量消耗问题，同时，越来越多的业务场景对海量数据分析处理的实时性、安全性和隐私性要求越来越高，所以单一云计算已经无法满足未来发展的需求。基于此，提出了边缘计算的概念。

边缘计算是在靠近本地终端设备的网络边缘，通过融合存储、计算等能力的分布式开放平台，就近提供智能服务。边缘计算是将从终端采集到的数据，直接在靠近数据产生的本地设备或网络中进行分析，无需再将数据传输至云端数据处理中心，一方面，边缘计算相对于本地服务器计算资源更丰富，可以提供更加强大的计算存储能力，另一方面，相比于云计算中心而言，边缘计算与用户和终端设备的距离更近，地理位置分布更加灵活，将海量数据上传到边缘计算模块处理可以减少数据从本地向云计算中心传输的时延，从而更好的满足低时延任务的要求。因此，边缘计算是解决当前工业物联网发展问题的有利手段，但是为此也带来了许多问题，其中包括如何采用合理的策略进行任务调度至合适的位置进行计算等，并且在不同的场景中任务的调度对于能量消耗和时间延迟这两个指标的要求是不一样的。近年来，人们不仅关注于以低时延和能耗为目标的独立任务和依赖任务的调度，也开始着眼于边缘服务器的缓存策略研究。因此，如何将任务卸载和缓存协同以达到降低时延和能耗的目的是当前边缘计算的重点以及难点问题。

发明内容

本发明的目的在于提供一种基于本地和边缘协同缓存的独立任务卸载方法，以解决没有考虑到缓存策略而导致相同任务出现重复计算浪费时间和能耗等资源的问题。

实现本发明目的的技术解决方案为：一种基于基于本地和边缘协同缓存的独立任务卸载方法，包括以下步骤：

步骤S1：确定边缘计算(Mobile Edge Computing,MEC)架构，包括本地设备、无线访问接入节点(Access Point,AP)和边缘服务器(Edge Server,ES)，其中本地设备通过AP和ES相连接；

步骤S2：建立MEC架构的通信模型、计算模型、缓存模型，确定单个本地设备的时延和能耗，建立以能耗和时延加权和为优化目标的方程，同时确定约束条件；

步骤S3：将S2提出的优化问题近似为一个马尔可夫决策过程，将ES剩余的计算资源、剩余的带宽资源、本地设备和ES的剩余缓存容量、能耗和时延加权和设计成状态向量，将任务卸载策略、缓存策略、计算资源和带宽资源分配策略设计成动作向量，以能耗和时延加权和为优化目标的方程作为奖励，转化为求解最优任务卸载策略问题和缓存策略问题；

步骤S4：基于DDPG(Deep Deterministic Policy Gradient)算法下，初始化深度强化学习模型的策略价值网络(Actor)、动作价值网络(Critic)以及经验回放缓冲区。Actor基于当前状态S随机做动作A，获得奖励R和新的状态S'，同时，Critic根据Actor做出的动作A和当前状态S更新Actor，将交互后的历史状态S、下一个状态S'、动作A、奖励R等作为样本传输元组存储起来至经验回放缓冲区中，从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic；

步骤S5：获取当前时隙的系统状态，将系统状态输入至训练好的深度强化学习模型中，利用训练好的深度强化学习模型，得到每个时隙的最优缓存策略和最优任务卸载策略。

进一步的，步骤S1，确定MEC架构，包括本地设备、无线访问接入节点AP和边缘服务器ES，具体方法为：

MEC架构包括：由n个本地设备组成的集合UE＝{UE₁,UE₂,UE₃,...UE_n}、K个无线访问接入节点AP组成的集合AP＝{AP₁,AP₂,...AP_K}和一个单独的ES，每个本地设备通过AP与ES相连接，本地设备和ES不仅拥有计算能力还拥有缓存能力；

假设系统采用离散时间模型t∈{0,1,2,...,T}，在同一时隙t下对于任意一个本地设备UE_i只会产生一个独立不可拆分任务

其/>

用一个四元组表示为

其中/>

表示任务的数据大小，/>

表示所需服务的缓存大小，/>

表示完成任务所需要的CPU时钟周期数，/>

表示任务的最大容忍延迟；

ES用一个二元组表示为{F,V}，其中F表示为ES的计算资源，V表示为ES的总的缓存容量。

进一步的，步骤S2，建立架构的通信模型、计算模型、缓存模型，具体方法为：

(1)通信模型

本地设备通过AP访问ES，然后把任务卸载给ES，当多个本地设备选择发送给ES任务，采用频分多址技术使得每一个本地设备都能分到一定的信道资源，则本地设备UE_i和ES之间在某个时隙t的传输速率

为：

其中B_i表示ES为本地设备UE_i分配的带宽，总的带宽为B_total，假设每个本地设备分配到的带宽是均匀的，P_i表示本地设备UE_i的发射功率，h_i表示本地设备UE_i的信道增益，σ²表示高斯白噪声，则时隙t下的本地设备到ES的传输时延

为：/>

因为任务在ES处理后的数据大小小于处理前的数据，且ES到本地设备的下行速率高于本地设备到ES的上行速率，所以不考虑下行传输的延迟，时隙t下的任务上传的能耗

为：

(2)计算模型

每个本地设备产生的独立任务要么在本地进行处理，要么完全卸载到ES进行运算，定义一个二元指示变量

来表示本地设备的卸载决策，其中/>

表示在时隙t选择本地执行任务，/>

表示本地设备UE_i时隙t下完成任务所需要的CPU时钟周期数，f_i ^local表示本地设备UE_i的计算能力，则对于UE_i产生的任务在本地执行时间/>

表示为：

κ^local表示CPU转一圈所消耗的能量，本地计算中产生的能量消耗为：

表示在时隙t时本地设备UE_i选择卸载到ES处理，ES的总计算能力为f_ES，分配给本地设备UE_i的计算资源为f_i ^ES，则在ES的计算时延/>

为：

故得到本地设备UE_i传输到ES的总时延为：

本地设备UE_i传输任务给ES产生的能耗

包括传输过程中产生的能耗/>

和ES计算时本地设备待机产生的能耗/>

(3)缓存模型

为了进一步降低时延与能耗并节约ES上有限的计算资源，将部分热点内容结果存放在ES上和本地设备中，本地设备在执行计算任务之前，会首先与区域内的ES和其他本地设备进行通信，查询其缓存信息，然后判断是否在本地设备执行或者卸载到ES计算，如果在本地设备计算，本地设备已经拥有缓存结果则直接返回结果，或者缓存在其他本地设备，通过ES传输给本地设备，否则本地设备自己计算；如果选择卸载到ES进行计算，任务的计算结果已经存储在ES的缓存中，则直接返回结果，否则在ES进行计算；

此外，考虑基于内容流行度的缓存策略，根据其最高流行度来存储计算任务所需要的数据，直到存储容量达到上限，本地设备对热门数据的请求概率遵循统计数据中的Zipf分布，则本地设备UE_i请求ES的计算任务v概率如下式：

e>0为Zipf分布影响因子，V表示全部内容；

定义

为二元缓存变量，ES代表边缘服务器，当/>

表示时隙t下ES缓存了本地设备UE_i的某个任务K的计算结果，/>

则表示没有缓存任务K的计算结果，δ_i表示本地设备UE_i缓存在ES的容量大小，假设ES的容量大小为M_ES，n个本地设备在ES缓存容量的使用不能超过ES的最大缓存容量：

定义

为二元缓存变量，UD代表本地设备，/>

表示本地设备UE_i缓存了任务K的计算结果，而/>

表示本地设备UE_i没有缓存任务K的计算结果，ε_i表示为缓存在本地设备UE_i的容量，假设所有本地设备的缓存总容量为M_UD，n个本地设备的缓存容量使用/>

不能超过最大缓存容量：

。

进一步的，步骤S2，确定单个本地设备的时延和能耗，建立以能耗和时延加权和为优化目标的方程，同时确定约束条件，具体方法为：

单个本地设备UE_i在时隙t的时延

为：

同理，单个本地设备UE_i在时隙t的能耗

为：

以最小化能耗和时延的加权和为优化目标，存在以下约束条件：任务要么在本地设备执行，要么在ES执行；任务的执行时间不能超过最大的容忍延迟；信道带宽资源和ES分配的计算资源不能超过规定的最大值；本地设备和ES的缓存容量大小不能超过最大容量大小，具体模型如下：

/>

。

进一步的，步骤S3，将S2提出的优化问题近似为一个马尔可夫决策过程，转化为求解最优任务卸载策略问题和缓存策略问题，具体方法为：

马尔可夫决策过程中的状态是反应网络空间的环境，在t时刻的状态S包含以下几种，第一个考虑ES剩余的计算资源，第二个考虑剩余的带宽资源，第三个和第四个考虑ES和本地设备的剩余缓存容量，最后一个考虑的是能耗和时延加权的和ψ_t，如下：

用动作空间来表示计算卸载策略、服务缓存策略、计算资源和带宽资源分配策略，所以动作向量A设计为：

在某种状态下执行一个动作后，智能体将从环境中获得反馈获得奖励，根据获得的奖励来选择行为，并不断更新策略，以最大化奖励和选择最优行为为目标，因此，将奖励函数r_t设置为优化目标的负值：

。

进一步的，步骤S4，基于DDPG算法，初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区，Actor基于当前状态随机做动作，获得奖励和新的状态，同时，Critic根据Actor做出的动作和当前状态更新Actor，并将交互后的历史状态、未来状态、动作、奖励作为样本传输元组存储起来至经验回放缓冲区中，训练Actor和Critic，其中：

深度强化学习模型分为两个主要部分，分别为策略价值网络Actor和动作价值网络Critic，策略价值网络Actor和动作价值网络Critic均包含一个当前网络Eval和目标网络Target，具体训练过程如下：

步骤S51：初始化经验回放缓冲区R，并设置其大小为D；

步骤S52：随机初始化Actor和Critic的Eval网络的参数θ和ω，将Actor和Critic的Target网络的参数θ'和ω'分别赋值为θ和ω；

步骤S53：Actor基于状态S_t和当前策略π以及随机噪声N得到动作A_t＝π(S_t,θ)+N；

步骤S54：Actor执行动作A_t，获得奖励R_t和下一个状态S'，将元组(S_t,A_t,R_t,S')存储到经验回放池R中；

步骤S55：从经验回放缓冲区中随机选取传输元组用来计算Critic的Eval网络的Q值；

步骤S56：利用损失函数更新Critic和Actor的Eval网络参数，再更新Actor和Critic的Target网络参数，最终得到训练完成的深度强化学习模型。

一种基于本地和边缘协同缓存的独立任务卸载系统，基于所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于项所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。

本发明与现有技术相比，其显著优点为：1)所考虑的缓存技术可以大大减少任务卸载过程中的成本。2)本发明将时延和能耗两种优化目标加权后综合考虑而非分开单独考虑。3)所采用的DDPG(Deep Deterministic Policy Gradient)算法，可以大大降低系统的开销，并且在不同场景下的长期能耗方面，其性能显著优于其他基准算法。

附图说明

图1为MEC架构图。

图2为DDPG结构框图。

图3为A2C和DDPG的性能比较示意图。

图4为有无缓存能力的性能比较示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明一种基于基于本地和边缘协同缓存的独立任务卸载方法，步骤为：

步骤S1、确定MEC(Mobile Edge Computing)架构；

如图1所示，包括由n个本地设备组成的集合UE＝{UE₁,UE₂，UE₃，...UE_n}、由K个无线访问接入节点(Access Point,AP)的集合AP＝{AP₁,AP₂,...AP_K}和一个单独的边缘服务器(Edge Server,ES)，每个本地设备通过AP与ES相连接，本地设备和ES不仅拥有计算能力还拥有缓存能力。

假设系统采用离散时间模型t∈{0,1,2,...,T}，在同一时隙t下对于任意一个本地设备UE_i(UE_i∈UE)只会产生一个独立不可拆分任务

其/>

可以用一个四元组表示为/>

其中/>

表示任务的数据大小，/>

表示所需服务的缓存大小，/>

表示完成任务所需要的CPU时钟周期数，/>

表示任务的最大容忍延迟。用一个二元组{F,V}来表示ES，其中F表示为ES的计算资源，V表示为ES的总的缓存容量。

步骤S2、建立架构的通信模型、计算模型和缓存模型；

(1)通信模型

本地设备和ES之间采用无线链路连接，本地设备可以通过无线链路访问ES，然后把任务卸载给ES。当多个本地设备选择发送给ES任务，采用了频分多址技术使得每一个本地设备都能分到一定的信道资源。因此对于本地设备UE_i和ES之间在某个时隙t的传输速率

为：

为：

因为任务在ES处理后的数据大小一般小于处理前的数据，且ES到本地设备的下行速率远远高于本地设备到ES的上行速率，所以不考虑下行传输的延迟。时隙t下的任务上传的能耗

为：

(2)计算模型

每个本地设备产生的独立任务要么在本地进行处理，要么完全卸载到ES进行运算。定义一个二元指示变量

来表示本地设备的卸载决策，其中/>

表示在时隙t选择本地执行任务，/>

表示本地设备UE_i时隙t下完成任务所需要的CPU时钟周期数，f_i ^local表示本地设备UE_i的计算能力。因此对于UE_i产生的任务在本地执行时间/>

表示为：

表示在时隙t时本地设备UE_i选择卸载到ES处理，ES的总计算能力为f_ES，分配给本地设备UE_i的计算资源为f_i ^ES，则可以得到在ES的计算时延/>

为：/>

故可以得到本地设备UE_i传输到ES的总时延为：

本地设备UE_i传输任务给ES产生的能耗

包括传输过程中产生的能耗/>

和ES计算时本地设备待机产生的能耗/>

(3)缓存模型

为了进一步降低时延与能耗并节约ES上有限的计算资源，将部分热点内容结果存放在ES上和本地中，本地在执行计算任务之前，会首先与区域内的ES和其他本地设备进行通信，查询其缓存信息，然后判断是否在本地执行或者卸载到ES计算。如果在本地计算，本地已经存在缓存结果则直接返回结果，或者缓存在其他本地设备，通过ES传输给本地，否则本地自己计算。如果选择卸载到ES进行计算，如果任务的计算结果已经存储在ES的缓存中，则可以直接返回结果，否则在ES进行计算。

本发明考虑了基于内容流行度的缓存策略，会根据其最高流行度来存储计算任务所需要的数据，直到存储容量达到上限。本地设备对热门数据的请求概率遵循统计数据中的Zipf分布，通常几个最受欢迎的计算任务会在不同的时间被大量的设备请求，则本地设备UE_i请求ES的计算任务v概率如下式：

e>0为Zipf分布影响因子，V表示全部内容。

定义

为二元缓存变量，ES代表边缘服务器，当/>

表示时隙t下ES缓存了本地设备UE_i的某个任务K的计算结果，/>

则表示没有缓存任务K的计算结果，δ_i表示本地设备UE_i缓存在ES的容量大小，假设ES的容量大小为M_ES,n个本地设备在ES缓存容量的使用不能超过ES的最大缓存容量：

定义

为二元缓存变量，UD代表本地设备，/>

表示本地设备UE_i缓存了任务K的计算结果，而/>

不能超过最大缓存容量：

步骤S3、确定单个用户的时延和能耗，并建立以能耗和时延加权和为优化目标的方程；

设

来表示本地设备UE_i在时隙t的卸载决策，其中/>

表示选择本地设备执行任务，/>

表示选择卸载到ES处理，单个本地设备UE_i在时隙t的时延T_i ^t为：

同理，单个本地设备UE_i在时隙t的能耗

为：

以最小化能耗和时延的加权和为优化目标，存在以下约束条件：任务要么在本地设备执行，要么在ES执行；任务的执行时间不能超过最大的容忍延迟；信道带宽资源和ES分配的计算资源不能超过规定的最大值；本地设备和ES的缓存容量大小不能超过最大容量大小。最后从式(12)和(13)可以得到，n个本地设备的能耗和时延的加权和最小化方程如下：

步骤S4、将步骤S3的优化问题近似为一个马尔可夫决策过程，转化为求解最优任务卸载策略问题和缓存策略问题，具体包含以下步骤。

马尔可夫决策过程中的状态是反应网络空间的环境，在本方法考虑的系统和环境下，在t时刻的状态S包含以下几种，第一个考虑ES剩余的计算资源，第二个考虑剩余的带宽资源，第三个和第四个考虑ES和本地设备的剩余缓存容量，最后一个考虑的是能耗和时延加权的和ψ_t，如下：

用动作空间来表示计算卸载策略、服务缓存策略、计算资源和带宽资源分配策略，所以动作向量设计为：

在某种状态下执行一个动作后，智能体将从环境中获得反馈获得奖励，根据获得的奖励来选择行为，并不断更新策略，以最大化奖励和选择最优行为为目标。因此，将奖励函数设置为优化目标的负值：

步骤S5、初始化深度强化学习模型的策略价值网络(Actor)和动作价值网络(Critic)，以及经验回放缓冲区，从经验回放池中随机选择元组来训练Actor和Critic的当前(Eval)网络和目标(Target)网络。

由图2可以得到DDPG算法的网络结构图，该结构图主要有两大主体部分，分别是Actor、Critic，Actor负责与环境互动产生动作，Critic负责为Actor产生的动作进行打分，以指导Actor今后的动作生成策略。两大主体部分均包含一个当前(Eval)网络和目标(Target)网络，总共四个神经网络，每个神经网络都设置为包含一个输入层，两个隐藏层和一个输出层的全连接网络，输入层和输出层设置64个神经元，隐藏层每层设置128个神经元，采用Relu激活函数，输出层使用Sigmoid的激活函数。环境一开始会存在一个初始状态S，并且开始前会初始化经验回放缓冲区，设置其大小为5000。

首先，Actor的Eval网络根据当前状态S，基于一定策略π，选择动作A，为了学习过程可以增加一些随机性，增加学习的覆盖，DDPG对选择出来的A会增加一定的噪声N，即最终和环境交互的动作A的表达式：

A＝π_θ(S)+N (18)

然后Actor和环境交互后生成下一个状态S'和奖励R，系统会将交互后的历史状态S、未来状态S'、动作A、奖励R等作为样本传输元组存储起来至经验回放缓冲区，元组大小设置为64，这些元组可能会在下一次迭代时被随机选择输入至Actor的Eval网络重复训练；同时，Critic的Eval网络也会根据从环境中的初始状态S和Actor做出的动作A计算Q值，或者是从经验回放缓冲区获得元组来计算Q值，根据Critic得到的Q值来促进Actor的Eval网络参数的更新，使用梯度损失函数更新Actor的Eval网络，将m个Q值累加后再取平均，表示为J(θ)：

Q(S_j,A_j,θ)为Actor的Eval网络计算的Q值。DDPG从Eval网络到Target网络参数的复制采用滑动平均值更新，是将新加入的元素和旧的平均值以一定比例τ混合成新的平均值，所以Actor的Target网络参数θ'更新为：

θ'＝τθ+(1-τ)θ' (20)

Critic的Target网络参数ω'定期从Critic的Eval网络复制更新，同理为：

ω'＝τω+(1-τ)ω' (21)

Actor的Target网络基于状态S'选择动作A'，Critic的Target网络根据动作A'和状态S'计算实际的动作价值为：

y_j＝R+γQ'(S',A',ω') (22)

其中Q(S',A',ω')表示Critic的Target网络获得的估计Q值，S'为Actor执行完动作后系统进入的下一个状态，A'表示下一状态S'下Actor的Target网络选择的动作，ω'为Critic的Target网络参数，γ表示衰减因子，设为0.9；然后使用梯度损失函数更新Critic的Eval网络，将m个差值求平方累加后再取平均，表示为L(ω)：

y_j表示实际的动作价值，Q(S_j,A_j,ω)表示Critic的Eval网络计算的Q值。

神经网络训练中，将学习率设为0.002，不断训练Actor和Critic的Eval网络并更新其网络参数，直到迭代次数达到最大迭代值500。

步骤S6、获取当前时隙的系统状态，将系统状态输入至训练好的深度强化学习模型中，利用训练好的深度强化学习模型，就能获得最优的缓存策略和任务卸载策略。

为了验证DDPG算法对于任务卸载的有效性和优越性，将其于A2C(AdvantageActorCritic)算法进行比较，最终结果如图3所示；另外验证缓存对于系统模型性能的影响，比较DDPG算法在没有使用缓存功能下性能与DDPG算法下使用缓存功能性能的差异，结果如图4所示。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于基于本地和边缘协同缓存的独立任务卸载方法，包括以下步骤：

步骤S1：确定边缘计算架构，包括本地设备、无线访问接入节点AP和边缘服务器ES，其中本地设备通过AP和ES相连接；

步骤S4：基于DDPG算法，初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区，Actor基于当前状态S随机做动作A，获得奖励R和新的状态S'，同时，Critic根据Actor做出的动作A和当前状态S更新Actor，并将交互后的历史状态S、下一个状态S'、动作A、奖励R作为样本传输元组存储起来至经验回放缓冲区中，从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic。

2.根据权利要求1所述的基于本地和边缘协同缓存的独立任务卸载方法，其特征在于，步骤S1，确定MEC架构，包括本地设备、无线访问接入节点AP和边缘服务器ES，具体方法为：

其/>

用一个四元组表示为/>

其中/>

表示任务的数据大小，/>

表示所需服务的缓存大小，/>

表示完成任务所需要的CPU时钟周期数，/>

表示任务的最大容忍延迟；

3.根据权利要求1所述的基于本地和边缘协同缓存的独立任务卸载方法，其特征在于，步骤S2，建立架构的通信模型、计算模型、缓存模型，具体方法为：

(1)通信模型

为：

为：

为：

(2)计算模型

来表示本地设备的卸载决策，其中/>

表示在时隙t选择本地执行任务，/>

表示为：

为：

故得到本地设备UE_i传输到ES的总时延为：

本地设备UE_i传输任务给ES产生的能耗

包括传输过程中产生的能耗/>

和ES计算时本地设备待机产生的能耗/>

(3)缓存模型

e>0为Zipf分布影响因子，V表示全部内容；

定义

为二元缓存变量，ES代表边缘服务器，当/>

表示时隙t下ES缓存了本地设备UE_i的某个任务K的计算结果，/>

定义

为二元缓存变量，UD代表本地设备，/>

表示本地设备UE_i缓存了任务K的计算结果，而/>

不能超过最大缓存容量：

4.根据权利要求3所述的基于本地和边缘协同缓存的独立任务卸载方法，其特征在于，步骤S2，确定单个本地设备的时延和能耗，建立以能耗和时延加权和为优化目标的方程，同时确定约束条件，具体方法为：

单个本地设备UE_i在时隙t的时延T_i ^t为：

同理，单个本地设备UE_i在时隙t的能耗

为：

/>

5.根据权利要求4所述的基于本地和边缘协同缓存的独立任务卸载方法，其特征在于，步骤S3，将S2提出的优化问题近似为一个马尔可夫决策过程，转化为求解最优任务卸载策略问题和缓存策略问题，具体方法为：

6.根据权利要求4所述的基于本地和边缘协同缓存的独立任务卸载方法，其特征在于，步骤S4，基于DDPG算法，初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区，Actor基于当前状态S随机做动作A，获得奖励R和新的状态S'，同时，Critic根据Actor做出的动作A和当前状态S更新Actor，并将交互后的历史状态S、下一个状态S'、动作A、奖励R作为样本传输元组存储起来至经验回放缓冲区中，从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic。其中：深度强化学习模型分为两个主要部分，分别为策略价值网络Actor和动作价值网络Critic，策略价值网络Actor和动作价值网络Critic均包含一个当前网络Eval和目标网络Target，具体训练过程如下：

步骤S51：初始化经验回放缓冲区R，并设置其大小为D；

7.一种基于本地和边缘协同缓存的独立任务卸载系统，其特征在于，基于权利要求1-6任一项所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-6任一项所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。

9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-6任一项所述的独立任务卸载方法，实现基于本地和边缘协同缓存的独立任务卸载。