CN116260871A - 一种基于本地和边缘协同缓存的独立任务卸载方法 - Google Patents

一种基于本地和边缘协同缓存的独立任务卸载方法 Download PDF

Info

Publication number
CN116260871A
CN116260871A CN202310200404.4A CN202310200404A CN116260871A CN 116260871 A CN116260871 A CN 116260871A CN 202310200404 A CN202310200404 A CN 202310200404A CN 116260871 A CN116260871 A CN 116260871A
Authority
CN
China
Prior art keywords
local
task
local device
actor
energy consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310200404.4A
Other languages
English (en)
Inventor
周川
徐鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202310200404.4A priority Critical patent/CN116260871A/zh
Publication of CN116260871A publication Critical patent/CN116260871A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于本地和边缘协同缓存的独立任务卸载方法,引入了服务缓存的概念,提出一种基于服务缓存的任务卸载和资源分配方法。首先以能量消耗和时间延迟的加权和为优化目标,将任务卸载、服务缓存和资源分配问题表述为混合整数非线性规划问题,并建立对应的通信模型、计算模型和缓存模型;其次,将上述问题近似为一个马尔可夫决策过程,并提出了一种基于深度确定性策略梯度算法来解决任务卸载、服务缓存和资源分配问题,最终降低了任务卸载过程中带来的能量消耗和时间延迟。

Description

一种基于本地和边缘协同缓存的独立任务卸载方法
技术领域
本发明涉及大数据、边缘计算技术,具体涉及一种基于本地和边缘协同缓存的独立任务卸载方法。
背景技术
近年来,物联网(IoT)是信息通信技术的重大革命之一。物联网将互联网连接从传统智能设备扩展到交通及工业制造领域,必然会进行大量计算,进而产生海量的数据。根据国际数据公司(International Data Corporation)发布关于全球数据流量预测报告显示,在2025年全球数据流量预测将会到达163泽字节(Zettabytes),为了降低处理海量数据的成本,当下一种有效的处理方式是利用云计算,通过网络“云”将巨大的数据计算处理程序分散为无数个小程序,然后多个服务器组成的系统网络对这些小程序进行处理,最终将得到结果返回给用户,并且可以在极短时间内(几秒钟)完成对海量数据的处理,从而达到强大的网络服务。然而由于新兴应用的快速普及,基于云计算的集中式物联网方案所产生的本地设备端与云端之间的距离较远产生的高延迟问题以及基站与核心网之间的回程链路的能量消耗问题,同时,越来越多的业务场景对海量数据分析处理的实时性、安全性和隐私性要求越来越高,所以单一云计算已经无法满足未来发展的需求。基于此,提出了边缘计算的概念。
边缘计算是在靠近本地终端设备的网络边缘,通过融合存储、计算等能力的分布式开放平台,就近提供智能服务。边缘计算是将从终端采集到的数据,直接在靠近数据产生的本地设备或网络中进行分析,无需再将数据传输至云端数据处理中心,一方面,边缘计算相对于本地服务器计算资源更丰富,可以提供更加强大的计算存储能力,另一方面,相比于云计算中心而言,边缘计算与用户和终端设备的距离更近,地理位置分布更加灵活,将海量数据上传到边缘计算模块处理可以减少数据从本地向云计算中心传输的时延,从而更好的满足低时延任务的要求。因此,边缘计算是解决当前工业物联网发展问题的有利手段,但是为此也带来了许多问题,其中包括如何采用合理的策略进行任务调度至合适的位置进行计算等,并且在不同的场景中任务的调度对于能量消耗和时间延迟这两个指标的要求是不一样的。近年来,人们不仅关注于以低时延和能耗为目标的独立任务和依赖任务的调度,也开始着眼于边缘服务器的缓存策略研究。因此,如何将任务卸载和缓存协同以达到降低时延和能耗的目的是当前边缘计算的重点以及难点问题。
发明内容
本发明的目的在于提供一种基于本地和边缘协同缓存的独立任务卸载方法,以解决没有考虑到缓存策略而导致相同任务出现重复计算浪费时间和能耗等资源的问题。
实现本发明目的的技术解决方案为:一种基于基于本地和边缘协同缓存的独立任务卸载方法,包括以下步骤:
步骤S1:确定边缘计算(Mobile Edge Computing,MEC)架构,包括本地设备、无线访问接入节点(Access Point,AP)和边缘服务器(Edge Server,ES),其中本地设备通过AP和ES相连接;
步骤S2:建立MEC架构的通信模型、计算模型、缓存模型,确定单个本地设备的时延和能耗,建立以能耗和时延加权和为优化目标的方程,同时确定约束条件;
步骤S3:将S2提出的优化问题近似为一个马尔可夫决策过程,将ES剩余的计算资源、剩余的带宽资源、本地设备和ES的剩余缓存容量、能耗和时延加权和设计成状态向量,将任务卸载策略、缓存策略、计算资源和带宽资源分配策略设计成动作向量,以能耗和时延加权和为优化目标的方程作为奖励,转化为求解最优任务卸载策略问题和缓存策略问题;
步骤S4:基于DDPG(Deep Deterministic Policy Gradient)算法下,初始化深度强化学习模型的策略价值网络(Actor)、动作价值网络(Critic)以及经验回放缓冲区。Actor基于当前状态S随机做动作A,获得奖励R和新的状态S',同时,Critic根据Actor做出的动作A和当前状态S更新Actor,将交互后的历史状态S、下一个状态S'、动作A、奖励R等作为样本传输元组存储起来至经验回放缓冲区中,从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic;
步骤S5:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的最优缓存策略和最优任务卸载策略。
进一步的,步骤S1,确定MEC架构,包括本地设备、无线访问接入节点AP和边缘服务器ES,具体方法为:
MEC架构包括:由n个本地设备组成的集合UE={UE1,UE2,UE3,...UEn}、K个无线访问接入节点AP组成的集合AP={AP1,AP2,...APK}和一个单独的ES,每个本地设备通过AP与ES相连接,本地设备和ES不仅拥有计算能力还拥有缓存能力;
假设系统采用离散时间模型t∈{0,1,2,...,T},在同一时隙t下对于任意一个本地设备UEi只会产生一个独立不可拆分任务
Figure BDA0004108906050000031
其/>
Figure BDA0004108906050000032
用一个四元组表示为
Figure BDA0004108906050000033
其中/>
Figure BDA0004108906050000034
表示任务的数据大小,/>
Figure BDA0004108906050000035
表示所需服务的缓存大小,/>
Figure BDA0004108906050000036
表示完成任务所需要的CPU时钟周期数,/>
Figure BDA0004108906050000037
表示任务的最大容忍延迟;
ES用一个二元组表示为{F,V},其中F表示为ES的计算资源,V表示为ES的总的缓存容量。
进一步的,步骤S2,建立架构的通信模型、计算模型、缓存模型,具体方法为:
(1)通信模型
本地设备通过AP访问ES,然后把任务卸载给ES,当多个本地设备选择发送给ES任务,采用频分多址技术使得每一个本地设备都能分到一定的信道资源,则本地设备UEi和ES之间在某个时隙t的传输速率
Figure BDA0004108906050000038
为:
Figure BDA0004108906050000039
其中Bi表示ES为本地设备UEi分配的带宽,总的带宽为Btotal,假设每个本地设备分配到的带宽是均匀的,Pi表示本地设备UEi的发射功率,hi表示本地设备UEi的信道增益,σ2表示高斯白噪声,则时隙t下的本地设备到ES的传输时延
Figure BDA00041089060500000310
为:/>
Figure BDA00041089060500000311
因为任务在ES处理后的数据大小小于处理前的数据,且ES到本地设备的下行速率高于本地设备到ES的上行速率,所以不考虑下行传输的延迟,时隙t下的任务上传的能耗
Figure BDA00041089060500000312
为:
Figure BDA00041089060500000313
Figure BDA0004108906050000041
(2)计算模型
每个本地设备产生的独立任务要么在本地进行处理,要么完全卸载到ES进行运算,定义一个二元指示变量
Figure BDA0004108906050000042
来表示本地设备的卸载决策,其中/>
Figure BDA0004108906050000043
表示在时隙t选择本地执行任务,/>
Figure BDA0004108906050000044
表示本地设备UEi时隙t下完成任务所需要的CPU时钟周期数,fi local表示本地设备UEi的计算能力,则对于UEi产生的任务在本地执行时间/>
Figure BDA0004108906050000045
表示为:
Figure BDA0004108906050000046
κlocal表示CPU转一圈所消耗的能量,本地计算中产生的能量消耗为:
Figure BDA0004108906050000047
Figure BDA0004108906050000048
表示在时隙t时本地设备UEi选择卸载到ES处理,ES的总计算能力为fES,分配给本地设备UEi的计算资源为fi ES,则在ES的计算时延/>
Figure BDA0004108906050000049
为:
Figure BDA00041089060500000410
故得到本地设备UEi传输到ES的总时延为:
Figure BDA00041089060500000411
本地设备UEi传输任务给ES产生的能耗
Figure BDA00041089060500000412
包括传输过程中产生的能耗/>
Figure BDA00041089060500000413
和ES计算时本地设备待机产生的能耗/>
Figure BDA00041089060500000414
Figure BDA00041089060500000415
(3)缓存模型
为了进一步降低时延与能耗并节约ES上有限的计算资源,将部分热点内容结果存放在ES上和本地设备中,本地设备在执行计算任务之前,会首先与区域内的ES和其他本地设备进行通信,查询其缓存信息,然后判断是否在本地设备执行或者卸载到ES计算,如果在本地设备计算,本地设备已经拥有缓存结果则直接返回结果,或者缓存在其他本地设备,通过ES传输给本地设备,否则本地设备自己计算;如果选择卸载到ES进行计算,任务的计算结果已经存储在ES的缓存中,则直接返回结果,否则在ES进行计算;
此外,考虑基于内容流行度的缓存策略,根据其最高流行度来存储计算任务所需要的数据,直到存储容量达到上限,本地设备对热门数据的请求概率遵循统计数据中的Zipf分布,则本地设备UEi请求ES的计算任务v概率如下式:
Figure BDA0004108906050000051
e>0为Zipf分布影响因子,V表示全部内容;
定义
Figure BDA0004108906050000052
为二元缓存变量,ES代表边缘服务器,当/>
Figure BDA0004108906050000053
表示时隙t下ES缓存了本地设备UEi的某个任务K的计算结果,/>
Figure BDA0004108906050000054
则表示没有缓存任务K的计算结果,δi表示本地设备UEi缓存在ES的容量大小,假设ES的容量大小为MES,n个本地设备在ES缓存容量的使用不能超过ES的最大缓存容量:
Figure BDA0004108906050000055
定义
Figure BDA0004108906050000056
为二元缓存变量,UD代表本地设备,/>
Figure BDA0004108906050000057
表示本地设备UEi缓存了任务K的计算结果,而/>
Figure BDA0004108906050000058
表示本地设备UEi没有缓存任务K的计算结果,εi表示为缓存在本地设备UEi的容量,假设所有本地设备的缓存总容量为MUD,n个本地设备的缓存容量使用/>
Figure BDA0004108906050000059
不能超过最大缓存容量:
Figure BDA00041089060500000510
进一步的,步骤S2,确定单个本地设备的时延和能耗,建立以能耗和时延加权和为优化目标的方程,同时确定约束条件,具体方法为:
单个本地设备UEi在时隙t的时延
Figure BDA00041089060500000511
为:
Figure BDA00041089060500000512
同理,单个本地设备UEi在时隙t的能耗
Figure BDA00041089060500000513
为:
Figure BDA0004108906050000061
以最小化能耗和时延的加权和为优化目标,存在以下约束条件:任务要么在本地设备执行,要么在ES执行;任务的执行时间不能超过最大的容忍延迟;信道带宽资源和ES分配的计算资源不能超过规定的最大值;本地设备和ES的缓存容量大小不能超过最大容量大小,具体模型如下:
Figure BDA0004108906050000062
Figure BDA0004108906050000063
/>
Figure BDA0004108906050000064
Figure BDA0004108906050000065
Figure BDA0004108906050000066
Figure BDA0004108906050000067
Figure BDA0004108906050000068
Figure BDA0004108906050000069
Figure BDA00041089060500000610
进一步的,步骤S3,将S2提出的优化问题近似为一个马尔可夫决策过程,转化为求解最优任务卸载策略问题和缓存策略问题,具体方法为:
马尔可夫决策过程中的状态是反应网络空间的环境,在t时刻的状态S包含以下几种,第一个考虑ES剩余的计算资源,第二个考虑剩余的带宽资源,第三个和第四个考虑ES和本地设备的剩余缓存容量,最后一个考虑的是能耗和时延加权的和ψt,如下:
Figure BDA00041089060500000611
用动作空间来表示计算卸载策略、服务缓存策略、计算资源和带宽资源分配策略,所以动作向量A设计为:
Figure BDA0004108906050000071
在某种状态下执行一个动作后,智能体将从环境中获得反馈获得奖励,根据获得的奖励来选择行为,并不断更新策略,以最大化奖励和选择最优行为为目标,因此,将奖励函数rt设置为优化目标的负值:
Figure BDA0004108906050000072
进一步的,步骤S4,基于DDPG算法,初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区,Actor基于当前状态随机做动作,获得奖励和新的状态,同时,Critic根据Actor做出的动作和当前状态更新Actor,并将交互后的历史状态、未来状态、动作、奖励作为样本传输元组存储起来至经验回放缓冲区中,训练Actor和Critic,其中:
深度强化学习模型分为两个主要部分,分别为策略价值网络Actor和动作价值网络Critic,策略价值网络Actor和动作价值网络Critic均包含一个当前网络Eval和目标网络Target,具体训练过程如下:
步骤S51:初始化经验回放缓冲区R,并设置其大小为D;
步骤S52:随机初始化Actor和Critic的Eval网络的参数θ和ω,将Actor和Critic的Target网络的参数θ'和ω'分别赋值为θ和ω;
步骤S53:Actor基于状态St和当前策略π以及随机噪声N得到动作At=π(St,θ)+N;
步骤S54:Actor执行动作At,获得奖励Rt和下一个状态S',将元组(St,At,Rt,S')存储到经验回放池R中;
步骤S55:从经验回放缓冲区中随机选取传输元组用来计算Critic的Eval网络的Q值;
步骤S56:利用损失函数更新Critic和Actor的Eval网络参数,再更新Actor和Critic的Target网络参数,最终得到训练完成的深度强化学习模型。
一种基于本地和边缘协同缓存的独立任务卸载系统,基于所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于项所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
本发明与现有技术相比,其显著优点为:1)所考虑的缓存技术可以大大减少任务卸载过程中的成本。2)本发明将时延和能耗两种优化目标加权后综合考虑而非分开单独考虑。3)所采用的DDPG(Deep Deterministic Policy Gradient)算法,可以大大降低系统的开销,并且在不同场景下的长期能耗方面,其性能显著优于其他基准算法。
附图说明
图1为MEC架构图。
图2为DDPG结构框图。
图3为A2C和DDPG的性能比较示意图。
图4为有无缓存能力的性能比较示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明一种基于基于本地和边缘协同缓存的独立任务卸载方法,步骤为:
步骤S1、确定MEC(Mobile Edge Computing)架构;
如图1所示,包括由n个本地设备组成的集合UE={UE1,UE2,UE3,...UEn}、由K个无线访问接入节点(Access Point,AP)的集合AP={AP1,AP2,...APK}和一个单独的边缘服务器(Edge Server,ES),每个本地设备通过AP与ES相连接,本地设备和ES不仅拥有计算能力还拥有缓存能力。
假设系统采用离散时间模型t∈{0,1,2,...,T},在同一时隙t下对于任意一个本地设备UEi(UEi∈UE)只会产生一个独立不可拆分任务
Figure BDA0004108906050000081
其/>
Figure BDA0004108906050000082
可以用一个四元组表示为/>
Figure BDA0004108906050000083
其中/>
Figure BDA0004108906050000084
表示任务的数据大小,/>
Figure BDA0004108906050000085
表示所需服务的缓存大小,/>
Figure BDA0004108906050000091
表示完成任务所需要的CPU时钟周期数,/>
Figure BDA0004108906050000092
表示任务的最大容忍延迟。用一个二元组{F,V}来表示ES,其中F表示为ES的计算资源,V表示为ES的总的缓存容量。
步骤S2、建立架构的通信模型、计算模型和缓存模型;
(1)通信模型
本地设备和ES之间采用无线链路连接,本地设备可以通过无线链路访问ES,然后把任务卸载给ES。当多个本地设备选择发送给ES任务,采用了频分多址技术使得每一个本地设备都能分到一定的信道资源。因此对于本地设备UEi和ES之间在某个时隙t的传输速率
Figure BDA0004108906050000093
为:
Figure BDA0004108906050000094
其中Bi表示ES为本地设备UEi分配的带宽,总的带宽为Btotal,假设每个本地设备分配到的带宽是均匀的,Pi表示本地设备UEi的发射功率,hi表示本地设备UEi的信道增益,σ2表示高斯白噪声,则时隙t下的本地设备到ES的传输时延
Figure BDA0004108906050000095
为:
Figure BDA0004108906050000096
因为任务在ES处理后的数据大小一般小于处理前的数据,且ES到本地设备的下行速率远远高于本地设备到ES的上行速率,所以不考虑下行传输的延迟。时隙t下的任务上传的能耗
Figure BDA0004108906050000097
为:
Figure BDA0004108906050000098
(2)计算模型
每个本地设备产生的独立任务要么在本地进行处理,要么完全卸载到ES进行运算。定义一个二元指示变量
Figure BDA0004108906050000099
来表示本地设备的卸载决策,其中/>
Figure BDA00041089060500000910
表示在时隙t选择本地执行任务,/>
Figure BDA00041089060500000911
表示本地设备UEi时隙t下完成任务所需要的CPU时钟周期数,fi local表示本地设备UEi的计算能力。因此对于UEi产生的任务在本地执行时间/>
Figure BDA0004108906050000101
表示为:
Figure BDA0004108906050000102
κlocal表示CPU转一圈所消耗的能量,本地计算中产生的能量消耗为:
Figure BDA0004108906050000103
Figure BDA0004108906050000104
表示在时隙t时本地设备UEi选择卸载到ES处理,ES的总计算能力为fES,分配给本地设备UEi的计算资源为fi ES,则可以得到在ES的计算时延/>
Figure BDA0004108906050000105
为:/>
Figure BDA0004108906050000106
故可以得到本地设备UEi传输到ES的总时延为:
Figure BDA0004108906050000107
本地设备UEi传输任务给ES产生的能耗
Figure BDA0004108906050000108
包括传输过程中产生的能耗/>
Figure BDA0004108906050000109
和ES计算时本地设备待机产生的能耗/>
Figure BDA00041089060500001010
Figure BDA00041089060500001011
(3)缓存模型
为了进一步降低时延与能耗并节约ES上有限的计算资源,将部分热点内容结果存放在ES上和本地中,本地在执行计算任务之前,会首先与区域内的ES和其他本地设备进行通信,查询其缓存信息,然后判断是否在本地执行或者卸载到ES计算。如果在本地计算,本地已经存在缓存结果则直接返回结果,或者缓存在其他本地设备,通过ES传输给本地,否则本地自己计算。如果选择卸载到ES进行计算,如果任务的计算结果已经存储在ES的缓存中,则可以直接返回结果,否则在ES进行计算。
本发明考虑了基于内容流行度的缓存策略,会根据其最高流行度来存储计算任务所需要的数据,直到存储容量达到上限。本地设备对热门数据的请求概率遵循统计数据中的Zipf分布,通常几个最受欢迎的计算任务会在不同的时间被大量的设备请求,则本地设备UEi请求ES的计算任务v概率如下式:
Figure BDA0004108906050000111
e>0为Zipf分布影响因子,V表示全部内容。
定义
Figure BDA0004108906050000112
为二元缓存变量,ES代表边缘服务器,当/>
Figure BDA0004108906050000113
表示时隙t下ES缓存了本地设备UEi的某个任务K的计算结果,/>
Figure BDA0004108906050000114
则表示没有缓存任务K的计算结果,δi表示本地设备UEi缓存在ES的容量大小,假设ES的容量大小为MES,n个本地设备在ES缓存容量的使用不能超过ES的最大缓存容量:
Figure BDA0004108906050000115
定义
Figure BDA0004108906050000116
为二元缓存变量,UD代表本地设备,/>
Figure BDA0004108906050000117
表示本地设备UEi缓存了任务K的计算结果,而/>
Figure BDA0004108906050000118
表示本地设备UEi没有缓存任务K的计算结果,εi表示为缓存在本地设备UEi的容量,假设所有本地设备的缓存总容量为MUD,n个本地设备的缓存容量使用/>
Figure BDA0004108906050000119
不能超过最大缓存容量:
Figure BDA00041089060500001110
步骤S3、确定单个用户的时延和能耗,并建立以能耗和时延加权和为优化目标的方程;
Figure BDA00041089060500001111
来表示本地设备UEi在时隙t的卸载决策,其中/>
Figure BDA00041089060500001112
表示选择本地设备执行任务,/>
Figure BDA00041089060500001113
表示选择卸载到ES处理,单个本地设备UEi在时隙t的时延Ti t为:
Figure BDA00041089060500001114
同理,单个本地设备UEi在时隙t的能耗
Figure BDA00041089060500001115
为:
Figure BDA00041089060500001116
以最小化能耗和时延的加权和为优化目标,存在以下约束条件:任务要么在本地设备执行,要么在ES执行;任务的执行时间不能超过最大的容忍延迟;信道带宽资源和ES分配的计算资源不能超过规定的最大值;本地设备和ES的缓存容量大小不能超过最大容量大小。最后从式(12)和(13)可以得到,n个本地设备的能耗和时延的加权和最小化方程如下:
Figure BDA0004108906050000121
Figure BDA0004108906050000122
Figure BDA0004108906050000123
Figure BDA0004108906050000124
Figure BDA0004108906050000125
Figure BDA0004108906050000126
Figure BDA0004108906050000127
Figure BDA0004108906050000128
Figure BDA0004108906050000129
步骤S4、将步骤S3的优化问题近似为一个马尔可夫决策过程,转化为求解最优任务卸载策略问题和缓存策略问题,具体包含以下步骤。
马尔可夫决策过程中的状态是反应网络空间的环境,在本方法考虑的系统和环境下,在t时刻的状态S包含以下几种,第一个考虑ES剩余的计算资源,第二个考虑剩余的带宽资源,第三个和第四个考虑ES和本地设备的剩余缓存容量,最后一个考虑的是能耗和时延加权的和ψt,如下:
Figure BDA00041089060500001210
用动作空间来表示计算卸载策略、服务缓存策略、计算资源和带宽资源分配策略,所以动作向量设计为:
Figure BDA00041089060500001211
在某种状态下执行一个动作后,智能体将从环境中获得反馈获得奖励,根据获得的奖励来选择行为,并不断更新策略,以最大化奖励和选择最优行为为目标。因此,将奖励函数设置为优化目标的负值:
Figure BDA0004108906050000131
步骤S5、初始化深度强化学习模型的策略价值网络(Actor)和动作价值网络(Critic),以及经验回放缓冲区,从经验回放池中随机选择元组来训练Actor和Critic的当前(Eval)网络和目标(Target)网络。
由图2可以得到DDPG算法的网络结构图,该结构图主要有两大主体部分,分别是Actor、Critic,Actor负责与环境互动产生动作,Critic负责为Actor产生的动作进行打分,以指导Actor今后的动作生成策略。两大主体部分均包含一个当前(Eval)网络和目标(Target)网络,总共四个神经网络,每个神经网络都设置为包含一个输入层,两个隐藏层和一个输出层的全连接网络,输入层和输出层设置64个神经元,隐藏层每层设置128个神经元,采用Relu激活函数,输出层使用Sigmoid的激活函数。环境一开始会存在一个初始状态S,并且开始前会初始化经验回放缓冲区,设置其大小为5000。
首先,Actor的Eval网络根据当前状态S,基于一定策略π,选择动作A,为了学习过程可以增加一些随机性,增加学习的覆盖,DDPG对选择出来的A会增加一定的噪声N,即最终和环境交互的动作A的表达式:
A=πθ(S)+N (18)
然后Actor和环境交互后生成下一个状态S'和奖励R,系统会将交互后的历史状态S、未来状态S'、动作A、奖励R等作为样本传输元组存储起来至经验回放缓冲区,元组大小设置为64,这些元组可能会在下一次迭代时被随机选择输入至Actor的Eval网络重复训练;同时,Critic的Eval网络也会根据从环境中的初始状态S和Actor做出的动作A计算Q值,或者是从经验回放缓冲区获得元组来计算Q值,根据Critic得到的Q值来促进Actor的Eval网络参数的更新,使用梯度损失函数更新Actor的Eval网络,将m个Q值累加后再取平均,表示为J(θ):
Figure BDA0004108906050000132
Q(Sj,Aj,θ)为Actor的Eval网络计算的Q值。DDPG从Eval网络到Target网络参数的复制采用滑动平均值更新,是将新加入的元素和旧的平均值以一定比例τ混合成新的平均值,所以Actor的Target网络参数θ'更新为:
θ'=τθ+(1-τ)θ' (20)
Critic的Target网络参数ω'定期从Critic的Eval网络复制更新,同理为:
ω'=τω+(1-τ)ω' (21)
Actor的Target网络基于状态S'选择动作A',Critic的Target网络根据动作A'和状态S'计算实际的动作价值为:
yj=R+γQ'(S',A',ω') (22)
其中Q(S',A',ω')表示Critic的Target网络获得的估计Q值,S'为Actor执行完动作后系统进入的下一个状态,A'表示下一状态S'下Actor的Target网络选择的动作,ω'为Critic的Target网络参数,γ表示衰减因子,设为0.9;然后使用梯度损失函数更新Critic的Eval网络,将m个差值求平方累加后再取平均,表示为L(ω):
Figure BDA0004108906050000141
yj表示实际的动作价值,Q(Sj,Aj,ω)表示Critic的Eval网络计算的Q值。
神经网络训练中,将学习率设为0.002,不断训练Actor和Critic的Eval网络并更新其网络参数,直到迭代次数达到最大迭代值500。
步骤S6、获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,就能获得最优的缓存策略和任务卸载策略。
为了验证DDPG算法对于任务卸载的有效性和优越性,将其于A2C(AdvantageActorCritic)算法进行比较,最终结果如图3所示;另外验证缓存对于系统模型性能的影响,比较DDPG算法在没有使用缓存功能下性能与DDPG算法下使用缓存功能性能的差异,结果如图4所示。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于基于本地和边缘协同缓存的独立任务卸载方法,包括以下步骤:
步骤S1:确定边缘计算架构,包括本地设备、无线访问接入节点AP和边缘服务器ES,其中本地设备通过AP和ES相连接;
步骤S2:建立MEC架构的通信模型、计算模型、缓存模型,确定单个本地设备的时延和能耗,建立以能耗和时延加权和为优化目标的方程,同时确定约束条件;
步骤S3:将S2提出的优化问题近似为一个马尔可夫决策过程,将ES剩余的计算资源、剩余的带宽资源、本地设备和ES的剩余缓存容量、能耗和时延加权和设计成状态向量,将任务卸载策略、缓存策略、计算资源和带宽资源分配策略设计成动作向量,以能耗和时延加权和为优化目标的方程作为奖励,转化为求解最优任务卸载策略问题和缓存策略问题;
步骤S4:基于DDPG算法,初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区,Actor基于当前状态S随机做动作A,获得奖励R和新的状态S',同时,Critic根据Actor做出的动作A和当前状态S更新Actor,并将交互后的历史状态S、下一个状态S'、动作A、奖励R作为样本传输元组存储起来至经验回放缓冲区中,从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic。
步骤S5:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的最优缓存策略和最优任务卸载策略。
2.根据权利要求1所述的基于本地和边缘协同缓存的独立任务卸载方法,其特征在于,步骤S1,确定MEC架构,包括本地设备、无线访问接入节点AP和边缘服务器ES,具体方法为:
MEC架构包括:由n个本地设备组成的集合UE={UE1,UE2,UE3,...UEn}、K个无线访问接入节点AP组成的集合AP={AP1,AP2,...APK}和一个单独的ES,每个本地设备通过AP与ES相连接,本地设备和ES不仅拥有计算能力还拥有缓存能力;
假设系统采用离散时间模型t∈{0,1,2,...,T},在同一时隙t下对于任意一个本地设备UEi只会产生一个独立不可拆分任务
Figure FDA0004108906020000011
其/>
Figure FDA0004108906020000012
用一个四元组表示为/>
Figure FDA0004108906020000013
其中/>
Figure FDA0004108906020000014
表示任务的数据大小,/>
Figure FDA0004108906020000015
表示所需服务的缓存大小,/>
Figure FDA0004108906020000016
表示完成任务所需要的CPU时钟周期数,/>
Figure FDA0004108906020000017
表示任务的最大容忍延迟;
ES用一个二元组表示为{F,V},其中F表示为ES的计算资源,V表示为ES的总的缓存容量。
3.根据权利要求1所述的基于本地和边缘协同缓存的独立任务卸载方法,其特征在于,步骤S2,建立架构的通信模型、计算模型、缓存模型,具体方法为:
(1)通信模型
本地设备通过AP访问ES,然后把任务卸载给ES,当多个本地设备选择发送给ES任务,采用频分多址技术使得每一个本地设备都能分到一定的信道资源,则本地设备UEi和ES之间在某个时隙t的传输速率
Figure FDA0004108906020000021
为:
Figure FDA0004108906020000022
其中Bi表示ES为本地设备UEi分配的带宽,总的带宽为Btotal,假设每个本地设备分配到的带宽是均匀的,Pi表示本地设备UEi的发射功率,hi表示本地设备UEi的信道增益,σ2表示高斯白噪声,则时隙t下的本地设备到ES的传输时延
Figure FDA0004108906020000023
为:
Figure FDA0004108906020000024
因为任务在ES处理后的数据大小小于处理前的数据,且ES到本地设备的下行速率高于本地设备到ES的上行速率,所以不考虑下行传输的延迟,时隙t下的任务上传的能耗
Figure FDA0004108906020000025
为:
Figure FDA0004108906020000026
(2)计算模型
每个本地设备产生的独立任务要么在本地进行处理,要么完全卸载到ES进行运算,定义一个二元指示变量
Figure FDA0004108906020000027
来表示本地设备的卸载决策,其中/>
Figure FDA0004108906020000028
表示在时隙t选择本地执行任务,/>
Figure FDA0004108906020000029
表示本地设备UEi时隙t下完成任务所需要的CPU时钟周期数,fi local表示本地设备UEi的计算能力,则对于UEi产生的任务在本地执行时间/>
Figure FDA00041089060200000210
表示为:
Figure FDA00041089060200000211
κlocal表示CPU转一圈所消耗的能量,本地计算中产生的能量消耗为:
Figure FDA0004108906020000031
Figure FDA00041089060200000313
表示在时隙t时本地设备UEi选择卸载到ES处理,ES的总计算能力为fES,分配给本地设备UEi的计算资源为fi ES,则在ES的计算时延/>
Figure FDA0004108906020000032
为:
Figure FDA0004108906020000033
故得到本地设备UEi传输到ES的总时延为:
Figure FDA0004108906020000034
本地设备UEi传输任务给ES产生的能耗
Figure FDA0004108906020000035
包括传输过程中产生的能耗/>
Figure FDA0004108906020000036
和ES计算时本地设备待机产生的能耗/>
Figure FDA0004108906020000037
Figure FDA0004108906020000038
(3)缓存模型
为了进一步降低时延与能耗并节约ES上有限的计算资源,将部分热点内容结果存放在ES上和本地设备中,本地设备在执行计算任务之前,会首先与区域内的ES和其他本地设备进行通信,查询其缓存信息,然后判断是否在本地设备执行或者卸载到ES计算,如果在本地设备计算,本地设备已经拥有缓存结果则直接返回结果,或者缓存在其他本地设备,通过ES传输给本地设备,否则本地设备自己计算;如果选择卸载到ES进行计算,任务的计算结果已经存储在ES的缓存中,则直接返回结果,否则在ES进行计算;
此外,考虑基于内容流行度的缓存策略,根据其最高流行度来存储计算任务所需要的数据,直到存储容量达到上限,本地设备对热门数据的请求概率遵循统计数据中的Zipf分布,则本地设备UEi请求ES的计算任务v概率如下式:
Figure FDA0004108906020000039
e>0为Zipf分布影响因子,V表示全部内容;
定义
Figure FDA00041089060200000310
为二元缓存变量,ES代表边缘服务器,当/>
Figure FDA00041089060200000311
表示时隙t下ES缓存了本地设备UEi的某个任务K的计算结果,/>
Figure FDA00041089060200000312
则表示没有缓存任务K的计算结果,δi表示本地设备UEi缓存在ES的容量大小,假设ES的容量大小为MES,n个本地设备在ES缓存容量的使用不能超过ES的最大缓存容量:
Figure FDA0004108906020000041
定义
Figure FDA0004108906020000042
为二元缓存变量,UD代表本地设备,/>
Figure FDA0004108906020000043
表示本地设备UEi缓存了任务K的计算结果,而/>
Figure FDA0004108906020000044
表示本地设备UEi没有缓存任务K的计算结果,εi表示为缓存在本地设备UEi的容量,假设所有本地设备的缓存总容量为MUD,n个本地设备的缓存容量使用/>
Figure FDA0004108906020000045
不能超过最大缓存容量:
Figure FDA0004108906020000046
4.根据权利要求3所述的基于本地和边缘协同缓存的独立任务卸载方法,其特征在于,步骤S2,确定单个本地设备的时延和能耗,建立以能耗和时延加权和为优化目标的方程,同时确定约束条件,具体方法为:
单个本地设备UEi在时隙t的时延Ti t为:
Figure FDA0004108906020000047
同理,单个本地设备UEi在时隙t的能耗
Figure FDA00041089060200000413
为:
Figure FDA0004108906020000048
以最小化能耗和时延的加权和为优化目标,存在以下约束条件:任务要么在本地设备执行,要么在ES执行;任务的执行时间不能超过最大的容忍延迟;信道带宽资源和ES分配的计算资源不能超过规定的最大值;本地设备和ES的缓存容量大小不能超过最大容量大小,具体模型如下:
Figure FDA0004108906020000049
/>
Figure FDA00041089060200000410
Figure FDA00041089060200000411
Figure FDA00041089060200000412
Figure FDA0004108906020000051
Figure FDA0004108906020000052
Figure FDA0004108906020000053
Figure FDA0004108906020000054
Figure FDA0004108906020000055
5.根据权利要求4所述的基于本地和边缘协同缓存的独立任务卸载方法,其特征在于,步骤S3,将S2提出的优化问题近似为一个马尔可夫决策过程,转化为求解最优任务卸载策略问题和缓存策略问题,具体方法为:
马尔可夫决策过程中的状态是反应网络空间的环境,在t时刻的状态S包含以下几种,第一个考虑ES剩余的计算资源,第二个考虑剩余的带宽资源,第三个和第四个考虑ES和本地设备的剩余缓存容量,最后一个考虑的是能耗和时延加权的和ψt,如下:
Figure FDA0004108906020000056
用动作空间来表示计算卸载策略、服务缓存策略、计算资源和带宽资源分配策略,所以动作向量A设计为:
Figure FDA0004108906020000057
在某种状态下执行一个动作后,智能体将从环境中获得反馈获得奖励,根据获得的奖励来选择行为,并不断更新策略,以最大化奖励和选择最优行为为目标,因此,将奖励函数rt设置为优化目标的负值:
Figure FDA0004108906020000058
6.根据权利要求4所述的基于本地和边缘协同缓存的独立任务卸载方法,其特征在于,步骤S4,基于DDPG算法,初始化深度强化学习模型的策略价值网络Actor、动作价值网络Critic以及经验回放缓冲区,Actor基于当前状态S随机做动作A,获得奖励R和新的状态S',同时,Critic根据Actor做出的动作A和当前状态S更新Actor,并将交互后的历史状态S、下一个状态S'、动作A、奖励R作为样本传输元组存储起来至经验回放缓冲区中,从经验回放缓冲区中选择元组重复上述过程以训练Actor和Critic。其中:深度强化学习模型分为两个主要部分,分别为策略价值网络Actor和动作价值网络Critic,策略价值网络Actor和动作价值网络Critic均包含一个当前网络Eval和目标网络Target,具体训练过程如下:
步骤S51:初始化经验回放缓冲区R,并设置其大小为D;
步骤S52:随机初始化Actor和Critic的Eval网络的参数θ和ω,将Actor和Critic的Target网络的参数θ'和ω'分别赋值为θ和ω;
步骤S53:Actor基于状态St和当前策略π以及随机噪声N得到动作At=π(St,θ)+N;
步骤S54:Actor执行动作At,获得奖励Rt和下一个状态S',将元组(St,At,Rt,S')存储到经验回放池R中;
步骤S55:从经验回放缓冲区中随机选取传输元组用来计算Critic的Eval网络的Q值;
步骤S56:利用损失函数更新Critic和Actor的Eval网络参数,再更新Actor和Critic的Target网络参数,最终得到训练完成的深度强化学习模型。
7.一种基于本地和边缘协同缓存的独立任务卸载系统,其特征在于,基于权利要求1-6任一项所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-6任一项所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-6任一项所述的独立任务卸载方法,实现基于本地和边缘协同缓存的独立任务卸载。
CN202310200404.4A 2023-03-03 2023-03-03 一种基于本地和边缘协同缓存的独立任务卸载方法 Pending CN116260871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310200404.4A CN116260871A (zh) 2023-03-03 2023-03-03 一种基于本地和边缘协同缓存的独立任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310200404.4A CN116260871A (zh) 2023-03-03 2023-03-03 一种基于本地和边缘协同缓存的独立任务卸载方法

Publications (1)

Publication Number Publication Date
CN116260871A true CN116260871A (zh) 2023-06-13

Family

ID=86684081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310200404.4A Pending CN116260871A (zh) 2023-03-03 2023-03-03 一种基于本地和边缘协同缓存的独立任务卸载方法

Country Status (1)

Country Link
CN (1) CN116260871A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116582836A (zh) * 2023-07-13 2023-08-11 中南大学 一种任务卸载与资源分配方法、设备、介质和系统
CN117042051A (zh) * 2023-08-29 2023-11-10 燕山大学 一种车联网中任务卸载策略生成方法、系统、设备及介质
CN117251296A (zh) * 2023-11-15 2023-12-19 成都信息工程大学 一种具有缓存机制的移动边缘计算任务卸载方法
CN117667639A (zh) * 2024-01-30 2024-03-08 华北电力大学 基于任务调度的数据中心用能调节能力评估方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116582836A (zh) * 2023-07-13 2023-08-11 中南大学 一种任务卸载与资源分配方法、设备、介质和系统
CN116582836B (zh) * 2023-07-13 2023-09-12 中南大学 一种任务卸载与资源分配方法、设备、介质和系统
CN117042051A (zh) * 2023-08-29 2023-11-10 燕山大学 一种车联网中任务卸载策略生成方法、系统、设备及介质
CN117042051B (zh) * 2023-08-29 2024-03-08 燕山大学 一种车联网中任务卸载策略生成方法、系统、设备及介质
CN117251296A (zh) * 2023-11-15 2023-12-19 成都信息工程大学 一种具有缓存机制的移动边缘计算任务卸载方法
CN117251296B (zh) * 2023-11-15 2024-03-12 成都信息工程大学 一种具有缓存机制的移动边缘计算任务卸载方法
CN117667639A (zh) * 2024-01-30 2024-03-08 华北电力大学 基于任务调度的数据中心用能调节能力评估方法及系统
CN117667639B (zh) * 2024-01-30 2024-05-10 华北电力大学 基于任务调度的数据中心用能调节能力评估方法及系统

Similar Documents

Publication Publication Date Title
CN112860350B (zh) 一种边缘计算中基于任务缓存的计算卸载方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN111726826B (zh) 一种基站密集型边缘计算网络中的在线任务卸载方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113626104A (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
Gao et al. Multi-armed bandits scheme for tasks offloading in MEC-enabled maritime communication networks
Zhang et al. Computation offloading and resource allocation in F-RANs: A federated deep reinforcement learning approach
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Jiang et al. Double DQN based computing offloading scheme for fog radio access networks
Nguyen et al. Utility optimization for blockchain empowered edge computing with deep reinforcement learning
CN116663644A (zh) 一种多压缩版本的云边端dnn协同推理加速方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN115756873A (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
Jiang et al. Deep Q-learning-based cooperative caching strategy for fog radio access networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination