CN115809147B

CN115809147B - 多边缘协作缓存调度优化方法、系统及模型训练方法

Info

Publication number: CN115809147B
Application number: CN202310060149.8A
Authority: CN
Inventors: 吕增威; 张玉; 魏振春; 张文化; 徐孝军; 石雷; 樊玉琦
Original assignee: Intelligent Manufacturing Institute of Hefei University Technology
Current assignee: Intelligent Manufacturing Institute of Hefei University Technology
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-04-25
Anticipated expiration: 2043-01-16
Also published as: CN115809147A

Abstract

本发明涉及协作边缘缓存领域，尤其涉及一种多边缘协作缓存调度优化方法、系统及模型训练方法。本发明提出的一种多边缘协作缓存调度优化方法，构建基于多智能体深度强化学习的MAPPO算法框架对面向反向服务迁移的多边缘协作缓存调度问题进行求解，从而可以很好地解决多智能体训练时环境不稳定的问题，而在执行时只需要本地状态信息就可以进行缓存决策，更符合实际应用场景且能够有较快的执行效率。同时MAPPO算法通过使用一个集中的Critic函数，使所有的边缘端关注整体收益，适用于多智能体的合作场景。

Description

多边缘协作缓存调度优化方法、系统及模型训练方法

技术领域

本发明涉及协作边缘缓存领域，尤其涉及一种多边缘协作缓存调度优化方法、系统及模型训练方法。

背景技术

近年来，随着无线网络技术发展，催生出很多计算密集型和时延敏感型的新兴应用，如人脸识别、虚拟/增强现实等。这些新兴应用具有低时延、高宽带等服务需求。传统的云服务方式因为用户距离云服务器较远、网络拥塞等原因，很难满足计算密集型和时延敏感型应用的服务需求。

针对传统云服务方式在解决该场景问题中的不足，边缘计算逐渐成为一种可行的方案。边缘计算方式通过在距离移动终端用户较近的无线网内部部署具有一定的通信、计算、存储等资源的边缘节点，提供类似云计算中心的能力，允许终端用户将自身产生的计算密集型和时延敏感型的计算任务卸载到边缘设备处执行，利用边缘设备靠近数据源的优势达到显著缩短传输距离、降低处理时延、改善用户体验、提升网络运行效率的目的。但是由于单个边缘设备中的通信、计算、存储等资源相对有限，当用户产生的任务需求大量激增时，可能会出现边缘设备负载过重、任务响应时间增加等问题。为了有效应对上述问题，引入了多边缘设备协作方式实现边缘设备之间的负载均衡。

多边缘设备协作是指将终端用户的任务在多个边缘设备之间进行协作卸载，通过多边缘设备协作执行计算任务，以满足多个终端用户的服务需求并实现多个边缘设备之间的负载均衡，提高整个边缘计算网络的系统效用。边缘设备在执行计算任务时需要进行服务缓存，即需要事先在边缘设备中缓存应用服务和相关数据库，使得相应的计算任务可以在该边缘设备中执行。

然而，目前大部分多边缘协作方案仅考虑了多边缘设备在计算任务卸载时的协作，而没有考虑服务缓存时的协作，即在现有的边缘协作缓存方案中，受到缓存资源约束影响，每个边缘设备都会选择部分服务缓存进本地边缘节点，当该边缘节点接收到某一计算任务但未缓存相应服务时，通过多边缘设备间的任务协作卸载来满足用户需求，而在边缘设备进行缓存替换时，则仍需从距离边缘设备较远的云端下载该服务并缓存进本地边缘节点，这无疑会带来巨大的能量消耗。

从求解方法上来说，现有的对多边缘协作缓存问题主要集中在本地单个边缘节点的缓存策略研究，大多采用先进先出（FIFO）、最近最少使用（LRU）、最近最不常用（LFU）或其变体等基于规则的贪婪式缓存调度方法。边缘设备在进行缓存决策时仅考虑本地边缘设备的任务计算和服务缓存状态，而不考虑其他协作边缘设备的任务计算和服务缓存状态，在这种方案下，若本地边缘设备中不存在执行终端用户的任务所需要的服务，则在协作边缘设备中命中该服务的概率同样较小，导致用户的计算任务无法在执行时延限制内完成，从而降低了用户体验；同时，现有的问题求解方法收敛速度缓慢，无法应对环境动态变化的应用场景，且在问题规模较大时，最优化或近似方法难以求解，启发式和元启发式方法则容易陷入局部最优解且缺乏多样性，浅层学习方法效率低、泛化性能较差。

从缓存决策设计上来说，目前的边缘缓存决策仍然局限于单步决策和静态决策，即边缘端在进行缓存决策使仅考虑前一时隙内边缘设备的缓存状态和计算任务执行状态，而不考虑历史状态信息对本时隙缓存决策的影响，无法刻画真实的多边缘协作下的缓存决策场景。

发明内容

为了解决上述现有技术中边缘网络缓存决策的缺陷，本发明提出了一种多边缘协作缓存调度优化方法，能够适应环境动态变化。

本发明提出的一种多边缘协作缓存调度优化方法，包括以下步骤：

S1、结合边缘设备对应的缓存调度模型和边缘设备最近 k个时隙上的局部观测信息 s(t,n,his)获得服务缓存概率列表 P(t,n)；

缓存调度模型与边缘网络中的边缘设备一一对应；

缓存调度模型的输入为边缘设备在最近 k个时隙上的局部观测信息 s(t,n,his)；缓存调度模型的输出为边缘设备的服务缓存概率列表 P(t,n)={prob(t,n,l)| l∈ L}； L表示所有服务的集合；

s(t,n,his)={s(t-k+1,n)，s(t-k+2,n)，…，s(t-k+i,n)，…，s(t,n)}； s(t-k+i,n)表示边缘设备 n在时隙 t-k+i上的状态，1≦ i≦ k； s(t,n)表示边缘设备 n在时隙 t上的状态； prob(t,n,l)表示边缘设备 n在时隙 t上缓存服务 l的概率，0≦ prob(t,n,l)≦1；

S2、根据概率对服务缓存概率列表中的服务进行采样，将采样获得的服务添加到预设的需要缓存服务集合 L(t,n)中， L(t,n)中的服务所占缓存空间的总和应该小于或者等于该边缘设备的缓存空间；

S3、将 L(t,n)作为边缘设备的决策动作 a(t,n)，边缘设备根据 L(t,n)更新缓存空间。

优选的：

s(t,n)={C(t,n)，I(t,n,acc)，P(t,n,suc)，P(t,n,fall)，Q(t,n,suc)，Q(t,n, fall)}

其中， C(t,n)表示边缘设备 n在时隙 t上的服务缓存状态， C(t,n)={c(t,n,l)|l∈ L}，c(t,n,l)为二值数；边缘设备 n在时隙 t上缓存有服务 l，则 c(t,n,l)=1；反之， c(t,n,l)=0；

I(t,n,acc)表示边缘设备 n在时隙 t上接收到的任务请求列表， I(t,n,acc)={I _m |m∈ M(t,n)}， I _m表示用户终端 m上传到关联的边缘设备的任务请求， M(t,n)表示边缘设备 n在时隙 t上关联的用户终端的集合；

P(t,n,suc)表示边缘设备 n在时隙 t上接收到的任务请求中成功执行的计算任务对应的服务的大小， P(t,n,suc)={P(l _m )|I _m∈ I(t,n,acc)，t _m≦ d _m }， P(l _m )表示服务 l _m的大小，即服务 l _m所占缓存空间； t _m表示任务请求 I _m执行的总时延， d _m表示任务请求 I _m的执行延迟限制； l _m表示用户终端 m产生的任务请求 I _m所对应的服务；

P(t,n,fall)表示边缘设备 n在时隙 t上接收的任务请求中未成功执行的计算任务对应的服务的大小， P(t,n,fall)={P(l _m )|I _m∈ I(t,n,acc)，t _m> d _m }；

Q(t,n,suc)表示边缘设备 n在时隙 t接收的任务请求中成功执行的任务的请求热度， Q(t,n,suc)={q(l _m )|I _m∈ I(t,n,acc)，t _m≦ d _m }； q(l _m )表示服务 l _m的请求热度；

Q(t,n,fall)表示边缘设备 n在时隙 t接收的任务请求中未成功执行的任务的请求热度， Q(t,n,fall)={q(l _m )|I _m∈ I(t,n,acc)，t _m> d _m }。

优选的，S2具体包括以下分步骤：

S21、清空边缘设备设定的需要缓存服务集合 L(t,n)；

S22、根据概率对服务缓存概率列表 P(t,n)中的服务进行采样，将采样获得的服务作为待缓存服务；

S23、计算 L(t,n)中的所有服务与待缓存服务所占缓存空间的总和是否大于该边缘设备的缓存空间；否，则将待缓存服务添加到 L(t,n)中，并返回步骤S22；是，固定 L(t,n)，并执行步骤S3。

优选的，S3之后还包括步骤S4-S8；

S4、确定边缘设备的本地不变服务集合 L(t,n,local)和需要迁入服务集合 L(t,n, in)；

L(t,n,local)={ l∈L(t,n)|c(t-1 ,n,l)=1}

L(t,n,in)={ l∈L(t,n)|c(t-1 ,n,l)=0}

L(t,n,local)∪L(t,n,in)=L(t,n)

c(t-1 ,n,l)=1表示服务 l在时隙 t-1上已经存储在边缘设备 n中； c(t-1 ,n,l)=0表示服务 l在时隙 t-1上没有存储在边缘设备 n中；

S5、边缘设备 n根据 L(t,n,in)向协作边缘端请求服务迁移，确定边缘设备 n需要从协作边缘端迁入的服务集合 L(t,n,n’)以及需要从云服务器迁入的服务集合 L(t,n,c _d )；确定边缘设备 n作为作为协作边缘端时需要反向迁移出去的服务集合 L(t,n,out)；

L(t,n,n’)∪L(t,n,c _d )=L(t,n,in)

L(t,n,n’)={ l∈L(t,n,in)|c(t-1 ,n,l)=0，c(t-1 ,n’,l)=1, n’∈N(n)}

L(t,n,c _d )={ l∈L(t,n,in)|c(t-1 ,n,l)=0，c(t-1 ,n’,l)=0, n’∈N(n)}

L(t,n,out)={ l∈L(t,n’,n)∩L(t-1 ,n)|n’∈N(n)}

边缘设备 n’和边缘设备 n互为协作边缘端，即边缘设备 n和边缘设备 n’之间具有信道，且边缘设备 n和边缘设备 n’可相互迁移服务； N(n)为边缘设备 n的所有协作边缘端的集合； L(t,n’,n)表示边缘设备 n’需要从边缘设备 n迁入的服务集合； L(t-1 ,n)表示边缘设备 n在时隙 t-1上的需要缓存服务集合，即边缘设备 n在时隙 t上已缓存的服务集合；

S6、将边缘设备 n中不属于 L(t,n,local)和 L(t,n,out)的服务均移出缓存；

S7、将边缘设备 n’的 L(t, n’,out)中的服务 l迁移到边缘设备 n中， n’∈N(n)， l∈L (t, n’,out)∩L(t,n, n’)，在迁移的同时更新 L(t, n’,out)和 L(t,n,n’)， n∈N， n’∈N (n)； L(t, n’,out)表示边缘设备 n’作为协作边缘端时需要反向迁移出去的服务集合； L(t, n’,out)={ l∈L(t,n,n’)∩L(t-1 ,n’)|n∈N(n’)}， N(n’)为边缘设备 n’的所有协作边缘端的集合； L(t-1 ,n’)表示边缘设备 n’在时隙 t-1上的需要缓存服务集合，即边缘设备 n’在时隙 t上已缓存的服务集合；

S8、判断是否有 L(t,n,n’)为空集；否，则返回步骤S7；是，则令各边缘设备从云服务器获取其 L(t,n,c _d )中的服务。

本发明还提供了一种缓存调度模型训练方法，用于训练上述的缓存调度模型，所述训练方法包括以下步骤；

SA1、以边缘设备作为智能体，构建基础模型并初始化，基础模型包括决策模块和价值评估模块，决策模块与智能体一一对应；构建决策模块对应的第一优化目标和价值评估模块对应的第二优化目标；设置数据缓冲区D和轨迹列表 τ，数据缓冲区D和轨迹列表 τ的初始值均为空集；

决策模块为由第一LSTM网络和Actor网络构成的LSTM-Actor网络，第一LSTM网络的输入即为决策模块的输入，第一LSTM网络的输出为Actor网络的输入，Actor网络的输出即为决策模块的输出；

第一LSTM网络的输入为智能体在最近 k个时隙上的局部观测信息 s(t,n,his)； s (t,n,his)={s(t-k+1,n)，s(t-k+2,n)，…，s(t-k+i,n)，…，s(t,n)}； s(t-k+i,n)表示智能体 n在时隙 t-k+i上的状态，1≦ i≦ k；第一LSTM网络的输出为中间状态 s(t,n,tra)；

Actor网络的输出为智能体的服务缓存概率列表 P(t,n)={prob(t,n,l)| l∈ L}， prob(t,n,l)表示智能体 n在时隙 t上缓存服务 l的概率，0≦ prob(t,n,l)≦1，

；

价值评估模块为由第二LSTM网络和Critic网络构成的LSTM-Critic网络，价值评估模块用于评价全网缓存策略；第二LSTM网络的输入即为价值评估模块的输入，第二LSTM网络的输出为Critic网络的输入，Critic网络的输出即为价值评估模块的输出；

第二LSTM网络的输入为边缘网络在最近 k个时隙上的全局观测信息 S(t,his)={S (t-k+1)，S(t-k+2)，…，S(t-k+i)，…，S(t)}； S(t-k+i)表示边缘网络在时隙 t-k+i上的全局状态，1≦ i≦ k； S(t-k+i)={s(t-k+i,n)|n∈ N}；第二LSTM网络的输出为全局中间状态 S(t, tra)；Critic网络的输出为状态价值 V _φ (S(t))；

SA2、结合数据缓冲区中数据构建决策模块的输入数据 s(t’,n,his)和价值评估模块的输入数据 S(t’,his)，t’初始值为0，智能体在时隙0上的状态为其初始状态；

s(t’,n,his)={s(t’-k+1,n)，s(t’-k+2,n)，…，s(t’-k+i,n)，…，s(t’,n)}；

S(t’,his)={S(t’-k+1)，S(t’-k+2)，…，S(t’-k+i)，…，S(t’)}

S(t’-k+i)={s(t’-k+i,n)|n∈ N}

当 t’-k+i>0，则 s(t’-k+i,n)表示智能体 n在时隙 t’-k+i上的状态；当 t’-k+i≦0，则 s(t’-k+i,n)=s(t’,n)；

s(t’,n,his)表示时隙 t’上智能体 n的最近 k个局部观测信息， s(t’-k+i,n)表示智能体 n在时隙 t’-k+i上的状态； S(t’,his)表示时隙 t’上边缘网络的最近 k个全局观测信息； S(t’-k+i)表示边缘网络在时隙 t’-k+i上的全局状态；

SA3、决策模块根据输入数据 s(t’,n,his)获得智能体的服务缓存概率列表，智能体根据概率从服务缓存概率列表中随机采样生成需要缓存服务集合 L(t’,n)作为决策动作 a(t’,n)并执行，获得智能体 n执行 a(t’,n)后的状态并记作下一个状态 s(t’+1 ,n)，并获取智能体 n的下一个局部观测信息 s(t’+1 ,n,his)和边缘网络的下一个全局观测信息 S(t’+1 , his)；

s(t’+1 ,n,his)={s(t’-k+2,n)，s(t’-k+3,n)，…，s(t’-k+i+1 ,n)，…，s(t’+1 , n)}；

S(t’+1 ,his)={S(t’-k+2)，S(t’-k+3)，…，S(t’-k+i+1 )，…，S(t’+1 )}

构建轨迹数据{ S(t’,his)，{[ s(t’,n,his),a(t’,n),s(t’+1 ,n,his)] |n∈ N}， S (t’+1, his)}，将轨迹数据存入轨迹列表 τ中；然后令 t'=t'+1，再返回步骤SA2；直至 t'=T，则执行步骤SA4； T为设定值；

SA4、将轨迹列表中的全局信息队列{ S(1 ,his)，S(2 ,his)，...，S(T,his)}输入价值评估模块获得对应的状态价值 V _φ (S(T))，并计算优势估计值 Â和折扣奖励 Ȓ；然后更新数据缓冲区D=D∪( τ,Â,Ȓ)；

SA5、令 t'=0并返回SA2，直至价值评估模块计算次数达到设定值 B _max，则对数据缓冲区D中的轨迹数据随机排序，然后从数据缓冲区中抽取b条轨迹数据，b为设定值，根据抽取的b条轨迹数据，结合第一优化目标对决策模块进行梯度更新，结合第二优化目标对价值评估模块进行梯度更新；

SA6、然后清空数据缓冲区和轨迹列表，再以更新后的基础模型作为初始状态并返回步骤SA2，直至基础模型更新次数得到设定的迭代阈值 ep _max，则提取决策模块作为缓存调度模型。

优选的，第一优化目标为：

|N|表示智能体总数量， min表示求最小值函数； θ表示决策模块的参数集合， π _θ (a (t,n)|s(t,n))为更新后的决策模块在智能体处于 s(t,n)状态时获得的决策动作的概率， π _θold (a(t,n)|s(t,n))为更新前的决策模块在智能体处于 s(t,n)状态时获得的决策动作的概率；决策模块在智能体处于 s(t,n)状态时获得决策动作的概率为决策动作中各服务对应的概率的均值；clip表示阈值函数； ε为设定参数；Ω为过渡参数；

A(t,n)表示优势函数；

其中，z表示序数，上标为幂； γ为奖励折扣因子， λ为近似估计超参数， γ、 λ均为设定值； r(t+z,n)表示智能体 n在时隙 t+z上的立即奖励， S(t+z+1)表示边缘网络在时隙 t+z+1上的全局状态， S(t+z)表示边缘网络在时隙 t+z上的全局状态； V _φ (S(t+z+1))、 V _φ (S(t+z))分别为 S(t+z+1)、 S(t+z)对应的状态价值。

优选的，智能体 n在时隙 t上的立即奖励 r(t,n)计算公式为：

I(t+1 ,n,acc)表示智能体 n在时隙 t+1上接收到的任务请求列表； I _m表示用户终端 m的任务请求； I _m =(λ _m ，γ _m ，d _m ，l _m )；λ _m表示任务请求的输入数据大小， γ _m表示任务请求的计算需求量，d _m表示任务请求的执行延迟限制，l _m表示任务请求的服务缓存需求， l _m ∈L； t _m表示任务请求执行的总时延。

优选的，第二优化目标为：

Ȓ(t,n)表示智能体 n在时隙 t上的折扣奖励； V _φ (S(t))表示更新后的价值评估模块计算的全局状态 S(t)对应的状态价值；

Ȓ(t,n)=r(t,n)+γV _φold (S(t+1))

γ为奖励折扣因子， V _φold (S(t+1 ))表示更新前的价值评估模块计算的全局状态 S (t+1)对应的状态价值。

本发明还提出了一种多边缘协作缓存调度优化系统，给上述多边缘协作缓存调度优化方法提供了载体，便于该方法的推广。

一种多边缘协作缓存调度优化系统，包括存储器，存储器存储有计算机程序，计算机程序被执行时用于实现所述的多边缘协作缓存调度优化方法。

优选的，还包括处理器，处理器与存储器连接，处理器用于执行所述计算机程序，以实现所述的多边缘协作缓存调度优化方法。

本发明的优点在于：

（1）本发明提出的一种多边缘协作缓存调度优化方法，构建基于多智能体深度强化学习的MAPPO算法框架对面向反向服务迁移的多边缘协作缓存调度问题进行求解。MAPPO算法使用集中式训练、分散式执行的框架（CTDE），中央控制器在训练时得到全局的状态，进一步得到最优的分散控制策略，从而可以很好地解决多智能体训练时环境不稳定的问题，而在执行时只需要本地状态信息就可以进行缓存决策，更符合实际应用场景且能够有较快的执行效率。同时MAPPO算法通过使用一个集中的Critic函数，使所有的边缘端关注整体收益，适用于多智能体的合作场景。

（2）本发明中，边缘设备在进行服务缓存替换时，若协作边缘端中缓存有该服务，则可通过多边缘协作网络进行迁移；若未缓存该服务，则从远端云处缓存。该方案实现多边缘网络在缓存替换时的协作，同时大大降低传统云端缓存方式带来的能量消耗。

（3）在MAPPO算法框架中引入基于LSTM网络的历史状态预测模型，分别构建LSTM-Actor网络和LSTM-Critic网络。边缘设备在进行缓存决策前，将过往多个时隙的历史状态信息输入LSTM网络中，从而捕捉对本时隙缓存决策影响最大的历史环境因素，进一步将LSTM网络的输出结果输入到MAPPO网络中的Actor网络和Critic网络，帮助多边缘协作系统做出最优的缓存决策。

附图说明

图1为一种多边缘协作缓存调度优化方法流程图；

图2为需要缓存服务集合采样流程图；

图3为缓存调度模型训练流程图；

图4为实施例边缘网络拓扑图；

图5为不同算法的计算任务成功率对比图；

图6为服务迁移能耗对比图。

具体实施方式

一种缓存调度模型

缓存调度模型与边缘网络中的边缘设备一一对应，边缘网络包括云端服务器、多个同构的边缘设备和多个终端用户，边缘设备的集合为 N，终端用户的集合为 M；边缘设备与终端用户之间通过无线网络进行通信，在边缘设备与终端用户通信覆盖重叠区域，用户选择与信道条件最优的边缘设备关联并通信；云端服务器提供的服务的集合为 L，各边缘设备缓存有 L中的部分服务，用户终端通过与关联的边缘设备通信以获取所需的服务。

缓存调度模型的输入为边缘设备在最近 k个时隙上的局部观测信息 s(t,n,his)； s (t,n,his)={s(t-k+1,n)，s(t-k+2,n)，…，s(t-k+i,n)，…，s(t,n)}； s(t-k+i,n)表示边缘设备 n在时隙 t-k+i上的状态，1≦ i≦ k； s(t,n)表示边缘设备 n在时隙 t上的状态；

缓存调度模型的输出为边缘设备的服务缓存概率列表 P(t,n)={prob(t,n,l)| l∈ L}， prob(t,n,l)表示边缘设备 n在时隙 t上缓存服务 l的概率，0≦ prob(t,n,l)≦1；

Q(t,n,fall)表示边缘设备n在时隙t接收的任务请求中未成功执行的任务的请求热度，Q(t,n,fall)={q(l_m)|I_m∈I(t,n,acc)，t_m>d_m}。

一种多边缘协作缓存调度优化方法

参照图1，本实施方式中的多边缘协作缓存调度优化方法，包括以下步骤S1-S8。

S1、获取边缘设备对应的缓存调度模型，将边缘设备最近 k个时隙上的局部观测信息 s(t,n,his)输入缓存调度模型，获得缓存调度模型输出的服务缓存概率列表 P(t,n)；

参照图2，结合以下步骤S21到S23，根据概率对服务缓存概率列表中的服务进行采样，将采样获得的服务添加到预设的需要缓存服务集合 L(t,n)中， L(t,n)中的服务所占缓存空间的总和应该小于或者等于该边缘设备的缓存空间；

S21、清空边缘设备的需要缓存服务集合 L(t,n)；

S22、根据概率对服务缓存概率列表中的服务进行采样，将采样获得的服务作为待缓存服务；

S23、计算 L(t,n)中的所有服务与待缓存服务所占缓存空间的总和是否大于该边缘设备的缓存空间；否，则将待缓存服务添加到 L(t,n)中，并返回步骤S22；是，固定 L(t,n)，并执行步骤S3；

L(t,n,local)={ l∈L(t,n)|c(t-1 ,n,l)=1}

L(t,n,in)={ l∈L(t,n)|c(t-1 ,n,l)=0}

L(t,n,local)∪L(t,n,in)=L(t,n)

c(t-1 ,n,l)=1表示服务 l在时隙 t-1上已经存储在边缘设备 n中； c(t-1 ,n,l)=0表示服务 l在时隙 t-1上没有存储在边缘设备 n中。

L(t,n,n’)∪L(t,n,c _d )=L(t,n,in)

L(t,n,out)={ l∈L(t,n’,n)∩L(t-1 ,n)|n’∈N(n)}

边缘设备 n’和边缘设备 n互为协作边缘端，即边缘设备 n和边缘设备 n’之间具有信道，且边缘设备 n和边缘设备 n’可相互迁移服务； N(n)为边缘设备 n的所有协作边缘端的集合； L(t,n’,n)表示边缘设备 n’需要从边缘设备 n迁入的服务集合； L(t-1 ,n)表示边缘设备 n在时隙 t-1上的需要缓存服务集合，即边缘设备 n在时隙 t上已缓存的服务集合。

S7、将边缘设备 n’的 L(t, n’,out)中的服务 l迁移到边缘设备 n中， n’∈N(n)， l∈L (t, n’,out)∩L(t,n, n’)，在迁移的同时更新 L(t, n’,out)和 L(t,n,n’)， n∈N， n’∈N (n)； L(t, n’,out)表示边缘设备 n’作为协作边缘端时需要反向迁移出去的服务集合； L(t, n’,out)={ l∈L(t,n,n’)∩L(t-1 ,n’)|n∈N(n’)}， N(n’)为边缘设备 n’的所有协作边缘端的集合； L(t-1 ,n’)表示边缘设备 n’在时隙 t-1上的需要缓存服务集合，即边缘设备 n’在时隙 t上已缓存的服务集合。

一种缓存调度模型训练方法

参照图3，本实施方式种，训练缓存调度模型时，以边缘设备作为智能体，执行以下步骤SA1-SA6。

SA1、构建基础模型并初始化，基础模型包括决策模块和价值评估模块，决策模块与智能体一一对应；构建决策模块对应的第一优化目标和价值评估模块对应的第二优化目标；设置数据缓冲区D和轨迹列表 τ，数据缓冲区D和轨迹列表 τ的初始值均为空集；

；

第二LSTM网络的输入为边缘网络在最近 k个时隙上的全局观测信息 S(t,his)={S (t-k+1)，S(t-k+2)，…，S(t-k+i)，…，S(t)}； S(t-k+i)表示边缘网络在时隙 t-k+i上的全局状态，1≦ i≦ k； S(t-k+i)={s(t-k+i,n)|n∈ N}；第二LSTM网络的输出为全局中间状态 S(t, tra)；Critic网络的输出为状态价值 V _φ (S(t))。

S(t’,his)={S(t’-k+1)，S(t’-k+2)，…，S(t’-k+i)，…，S(t’)}

S(t’-k+i)={s(t’-k+i,n)|n∈ N}

s(t’,n,his)表示时隙 t’上智能体 n的最近 k个局部观测信息， s(t’-k+i,n)表示智能体 n在时隙 t’-k+i上的状态； S(t’,his)表示时隙 t’上边缘网络的最近 k个全局观测信息； S(t’-k+i)表示边缘网络在时隙 t’-k+i上的全局状态。

构建轨迹数据{ S(t’,his)，{[ s(t’,n,his),a(t’,n),s(t’+1 ,n,his)] |n∈ N}， S (t’+1, his)}，将轨迹数据存入轨迹列表 τ中；然后令 t'=t'+1，再返回步骤SA2；直至 t'=T，则执行步骤SA4；T为设定值。

智能体根据概率从服务缓存概率列表中随机采样生成需要缓存服务集合 L(t’,n)的方式具体可参照步骤S21到S23。

SA4、将轨迹列表中的全局信息队列{ S(1 ,his)，S(2 ,his)，...，S(T,his)}输入价值评估模块获得对应的状态价值 V _φ (S(T))，并计算优势估计值 Â和折扣奖励 Ȓ；然后更新数据缓冲区D=D∪( τ,Â,Ȓ)。

SA5、令 t'=0并返回SA2，直至价值评估模块计算次数达到设定值 B _max，则对数据缓冲区D中的轨迹数据随机排序，然后从数据缓冲区中抽取b条轨迹数据，b为设定值，根据抽取的b条轨迹数据，结合第一优化目标对决策模块进行梯度更新，结合第二优化目标对价值评估模块进行梯度更新。

第一优化目标为：

|N|表示集合 N中的边缘设备数量，即智能体总数量， min表示求最小值函数； θ表示决策模块的参数集合， π _θ (a(t,n)|s(t,n))为更新后的决策模块在智能体处于 s(t,n)状态时获得的决策动作的概率， π _θold (a(t,n)|s(t,n))为更新前的决策模块在智能体处于 s(t, n)状态时获得的决策动作的概率；决策模块在智能体处于 s(t,n)状态时获得决策动作的概率为决策动作中各服务对应的概率的均值；Ω为过渡参数；

clip表示阈值函数； ε为设定参数；

当

当；

当

A(t,n)表示优势函数；

其中，z表示序数，上标为幂； γ为奖励折扣因子， λ为近似估计超参数， γ、 λ均为设定值； r(t+z,n)表示智能体 n在时隙 t+z上的立即奖励， S(t+z+1)表示边缘网络在时隙 t+z+1上的全局状态， S(t+z)表示边缘网络在时隙 t+z上的全局状态； V _φ (S(t+z+1))、 V _φ (S(t+z))分别为 S(t+z+1)、 S(t+z)对应的状态价值；

智能体 n在时隙 t上的立即奖励 r(t,n)计算公式为：

值得注意的是，在计算任务执行的总时延时，首先需要获知任务所需服务的来源，即 l _m的缓存位置是用户终端 m关联的智能体、还是用户终端 m关联的智能体的协作边缘端、或者是云服务器。 l _m从以上三种路径获得，则 t _m均不同，三种路径对应的任务执行的总时延的计算方法均为现有技术，在此不做赘述。

第二优化目标为：

实施例

本实施例中以云服务器Cloud和3个同构的边缘设备Ed1、Ed2以及Ed3构成的边缘网络为例，每个边缘设备关联有2-4个终端用户，边缘网络的拓扑图如图 4所示；边缘设备Ed1关联终端用户U11、U12、U13和U14；边缘设备Ed2关联终端用户U21、U22和U23；边缘设备Ed3关联终端用户U31和U32。

本实施例中，分别采用了表1中的四种方法决策边缘网络中各边缘设备的服务缓存，然后均采用上述方法中的步骤S4-S8进行服务迁移。

本实施例中，4种方法决策出的服务缓存，导致不同用户终端的计算任务成功率如图5所示。可见，本实施例种采用MAPPO方法的计算任务成功率始终高于其他算法。

参照图6，本实施例中，还进一步统计了边缘设备之间进行服务迁移的能耗以及从云服务器上复制服务的能耗；可见边缘设备之间进行服务迁移的能耗更低。

表1

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种多边缘协作缓存调度优化方法，其特征在于，包括以下步骤：

S1、结合边缘设备对应的缓存调度模型和边缘设备最近k个时隙上的局部观测信息s (t,n,his)获得服务缓存概率列表P(t,n)；

缓存调度模型与边缘网络中的边缘设备一一对应；

缓存调度模型的输入为边缘设备在最近k个时隙上的局部观测信息s(t,n,his)；缓存调度模型的输出为边缘设备的服务缓存概率列表P(t,n)={prob(t,n,l)|l∈L}；L表示所有服务的集合；

s(t,n,his)={s(t-k+1,n)，s(t-k+2,n)，…，s(t-k+i,n)，…，s(t,n)}；s(t-k+i,n)表示边缘设备n在时隙t-k+i上的状态，1≦i≦k；s(t,n)表示边缘设备n在时隙t上的状态；prob (t,n,l)表示边缘设备n在时隙t上缓存服务l的概率，0≦prob(t,n,l)≦1；

S2、根据概率对服务缓存概率列表中的服务进行采样，将采样获得的服务添加到预设的需要缓存服务集合L(t,n)中，L(t,n)中的服务所占缓存空间的总和应该小于或者等于该边缘设备的缓存空间；

S3、将L(t,n)作为边缘设备的决策动作a(t,n)，边缘设备根据L(t,n)更新缓存空间；

s(t,n)={C(t,n)，I(t,n,acc)，P(t,n,suc)，P(t,n,fall)，Q(t,n,suc)，Q(t,n,fall)}

其中，C(t,n)表示边缘设备n在时隙t上的服务缓存状态，C(t,n)={c(t,n,l)|l∈L}，c (t,n,l)为二值数；边缘设备n在时隙t上缓存有服务l，则c(t,n,l)=1；反之，c(t,n,l)=0；

I(t,n,acc)表示边缘设备n在时隙t上接收到的任务请求列表，I(t,n,acc)={I _m |m∈M (t,n)}，I _m表示用户终端m上传到关联的边缘设备的任务请求，M(t,n)表示边缘设备n在时隙t上关联的用户终端的集合；

P(t,n,suc)表示边缘设备n在时隙t上接收到的任务请求中成功执行的计算任务对应的服务的大小，P(t,n,suc)={P(l _m )|I _m∈I(t,n,acc)，t _m≦d _m }，P(l _m )表示服务l _m的大小，即服务l _m所占缓存空间；t _m表示任务请求I _m执行的总时延，d _m表示任务请求I _m的执行延迟限制；l _m表示用户终端m产生的任务请求I _m所对应的服务；

P(t,n,fall)表示边缘设备n在时隙t上接收的任务请求中未成功执行的计算任务对应的服务的大小，P(t,n,fall)={P(l _m )|I _m∈I(t,n,acc)，t _m>d _m }；

Q(t,n,suc)表示边缘设备n在时隙t接收的任务请求中成功执行的任务的请求热度，Q (t,n,suc)={q(l _m )|I _m∈I(t,n,acc)，t _m≦d _m }；q(l _m )表示服务l _m的请求热度；

Q(t,n,fall)表示边缘设备n在时隙t接收的任务请求中未成功执行的任务的请求热度，Q(t,n,fall)={q(l _m )|I _m∈I(t,n,acc)，t _m>d _m }；

S3之后还包括步骤S4-S8；

S4、确定边缘设备的本地不变服务集合L(t,n,local)和需要迁入服务集合L(t,n,in)；

L(t,n,local)={l∈L(t,n)|c(t-1,n,l)=1}

L(t,n,in)={l∈L(t,n)|c(t-1,n,l)=0}

L(t,n,local)∪L(t,n,in)=L(t,n)

c(t-1,n,l)=1表示服务l在时隙t-1上已经存储在边缘设备n中；c(t-1,n,l)=0表示服务l在时隙t-1上没有存储在边缘设备n中；

S5、边缘设备n根据L(t,n,in)向协作边缘端请求服务迁移，确定边缘设备n需要从协作边缘端迁入的服务集合L(t,n,n’)以及需要从云服务器迁入的服务集合L(t,n,c _d )；确定边缘设备n作为协作边缘端时需要反向迁移出去的服务集合L(t,n,out)；

L(t,n,n’)∪L(t,n,c _d )=L(t,n,in)

L(t,n,n’)={l∈L(t,n,in)|c(t-1,n,l)=0，c(t-1,n’,l)=1,n’∈N(n)}

L(t,n,c _d )={l∈L(t,n,in)|c(t-1,n,l)=0，c(t-1,n’,l)=0,n’∈N(n)}

L(t,n,out)={l∈L(t,n’,n)∩L(t-1,n)|n’∈N(n)}

边缘设备n’和边缘设备n互为协作边缘端，即边缘设备n和边缘设备n’之间具有信道，且边缘设备n和边缘设备n’可相互迁移服务；N(n)为边缘设备n的所有协作边缘端的集合；L (t,n’,n)表示边缘设备n’需要从边缘设备n迁入的服务集合；L(t-1,n)表示边缘设备n在时隙t-1上的需要缓存服务集合，即边缘设备n在时隙t上已缓存的服务集合；

S6、将边缘设备n中不属于L(t,n,local)和L(t,n,out)的服务均移出缓存；

S7、将边缘设备n’的L(t, n’,out)中的服务l迁移到边缘设备n中，n’∈N(n)，l∈L(t, n’,out)∩L(t,n, n’)，在迁移的同时更新L(t, n’,out)和L(t,n,n’)，n∈N，n’∈N(n)；L (t, n’,out)表示边缘设备n’作为协作边缘端时需要反向迁移出去的服务集合；L(t,n’, out)={l∈L(t,n,n’)∩L(t-1,n’)|n∈N(n’)}，N(n’)为边缘设备n’的所有协作边缘端的集合；L(t-1,n’)表示边缘设备n’在时隙t-1上的需要缓存服务集合，即边缘设备n’在时隙t上已缓存的服务集合；

S8、判断是否有L(t,n,n’)为空集；否，则返回步骤S7；是，则令各边缘设备从云服务器获取其L(t,n,c _d )中的服务。

2.如权利要求1所述的多边缘协作缓存调度优化方法，其特征在于，S2具体包括以下分步骤：

S21、清空边缘设备设定的需要缓存服务集合L(t,n)；

S22、根据概率对服务缓存概率列表P(t,n)中的服务进行采样，将采样获得的服务作为待缓存服务；

S23、计算L(t,n)中的所有服务与待缓存服务所占缓存空间的总和是否大于该边缘设备的缓存空间；否，则将待缓存服务添加到L(t,n)中，并返回步骤S22；是，固定L(t,n)，并执行步骤S3。

3.一种缓存调度模型训练方法，其特征在于，用于提供如权利要求1-2任一项所述的多边缘协作缓存调度优化方法所用的缓存调度模型，所述训练方法包括以下步骤；

SA1、以边缘设备作为智能体，构建基础模型并初始化，基础模型包括决策模块和价值评估模块，决策模块与智能体一一对应；构建决策模块对应的第一优化目标和价值评估模块对应的第二优化目标；设置数据缓冲区D和轨迹列表τ，数据缓冲区D和轨迹列表τ的初始值均为空集；

第一LSTM网络的输入为智能体在最近k个时隙上的局部观测信息s(t,n,his)；s(t,n, his)={s(t-k+1,n)，s(t-k+2,n)，…，s(t-k+i,n)，…，s(t,n)}；s(t-k+i,n)表示智能体n在时隙t-k+i上的状态，1≦i≦k；第一LSTM网络的输出为中间状态s(t,n,tra)；

Actor网络的输出为智能体的服务缓存概率列表

P(t,n)={prob(t,n,l)|l∈L}，prob(t,n,l)表示智能体n在时隙t上缓存服务l的概率，0≦prob(t,n,l)≦1，

；价值评估模块为由第二LSTM网络和Critic网络构成的LSTM-Critic网络，价值评估模块用于评价全网缓存策略；第二LSTM网络的输入即为价值评估模块的输入，第二LSTM网络的输出为Critic网络的输入，Critic网络的输出即为价值评估模块的输出；

第二LSTM网络的输入为边缘网络在最近k个时隙上的全局观测信息S(t,his)={S(t-k+ 1)，S(t-k+2)，…，S(t-k+i)，…，S(t)}；S(t-k+i)表示边缘网络在时隙t-k+i上的全局状态，1≦i≦k；S(t-k+i)={s(t-k+i,n)|n∈N}；第二LSTM网络的输出为全局中间状态S(t,tra)；Critic网络的输出为状态价值V _φ (S(t))；

SA2、结合数据缓冲区中数据构建决策模块的输入数据s(t’,n,his)和价值评估模块的输入数据S(t’,his)，t’初始值为0，智能体在时隙0上的状态为其初始状态；

S(t’,his)={S(t’-k+1)，S(t’-k+2)，…，S(t’-k+i)，…，S(t’)}

S(t’-k+i)={s(t’-k+i,n)|n∈N}

当t’-k+i>0，则s(t’-k+i,n)表示智能体n在时隙t’-k+i上的状态；当t’-k+i≦0，则s (t’-k+i,n)=s(t’,n)；

s(t’,n,his)表示时隙t’上智能体n的最近k个局部观测信息，s(t’-k+i,n)表示智能体n在时隙t’-k+i上的状态；S(t’,his)表示时隙t’上边缘网络的最近k个全局观测信息；S (t’-k+i)表示边缘网络在时隙t’-k+i上的全局状态；

SA3、决策模块根据输入数据s(t’,n,his)获得智能体的服务缓存概率列表，智能体根据概率从服务缓存概率列表中随机采样生成需要缓存服务集合L(t’,n)作为决策动作a (t’,n)并执行，获得智能体n执行a(t’,n)后的状态并记作下一个状态s(t’+1,n)，并获取智能体n的下一个局部观测信息s(t’+1,n,his)和边缘网络的下一个全局观测信息S(t’+1, his)；

s(t’+1,n,his)={s(t’-k+2,n)，s(t’-k+3,n)，…，s(t’-k+i+1,n)，…，s(t’+1,n)}

S(t’+1,his)={S(t’-k+2)，S(t’-k+3)，…，S(t’-k+i+1)，…，S(t’+1)}

构建轨迹数据{S(t’,his)，{[s(t’,n,his),a(t’,n),s(t’+1,n,his)]|n∈N}，S(t’+1,his)}，将轨迹数据存入轨迹列表τ中；然后令t'=t'+1，再返回步骤SA2；直至t'=T，则执行步骤SA4；T为设定值；

SA4、将轨迹列表中的全局信息队列{S(1,his)，S(2,his)，...，S(T,his)}输入价值评估模块获得对应的状态价值V _φ (S(T))，并计算优势估计值Â和折扣奖励Ȓ；然后更新数据缓冲区D=D∪(τ,Â,Ȓ)；

SA5、令t'=0并返回SA2，直至价值评估模块计算次数达到设定值B _max，则对数据缓冲区D中的轨迹数据随机排序，然后从数据缓冲区中抽取b条轨迹数据，b为设定值，根据抽取的b条轨迹数据，结合第一优化目标对决策模块进行梯度更新，结合第二优化目标对价值评估模块进行梯度更新；

SA6、然后清空数据缓冲区和轨迹列表，再以更新后的基础模型作为初始状态并返回步骤SA2，直至基础模型更新次数得到设定的迭代阈值ep _max，则提取决策模块作为缓存调度模型。

4.如权利要求3所述的缓存调度模型训练方法，其特征在于，第一优化目标为：

|N|表示智能体总数量，min表示求最小值函数；θ表示决策模块的参数集合，π _θ (a(t,n)|s(t,n))为更新后的决策模块在智能体处于s(t,n)状态时获得的决策动作的概率，π _θold (a(t,n)|s(t,n))为更新前的决策模块在智能体处于s(t,n)状态时获得的决策动作的概率；决策模块在智能体处于s(t,n)状态时获得决策动作的概率为决策动作中各服务对应的概率的均值；clip表示阈值函数；ε为设定参数；Ω为过渡参数；

A(t,n)表示优势函数；

其中，z表示序数，上标为幂；γ为奖励折扣因子，λ为近似估计超参数，γ、λ均为设定值；r(t+z,n)表示智能体n在时隙t+z上的立即奖励，S(t+z+1)表示边缘网络在时隙t+z+1上的全局状态，S(t+z)表示边缘网络在时隙t+z上的全局状态；V _φ (S(t+z+1))、V _φ (S(t+z))分别为S(t+z+1)、S(t+z)对应的状态价值。

5.如权利要求4所述的缓存调度模型训练方法，其特征在于，智能体n在时隙t上的立即奖励r(t,n)计算公式为：

I(t+1,n,acc)表示智能体n在时隙t+1上接收到的任务请求列表；I _m表示用户终端m的任务请求；I _m =(λ _m ，γ _m ，d _m ，l _m )；λ _m表示任务请求的输入数据大小，γ _m表示任务请求的计算需求量，d _m表示任务请求的执行延迟限制，l _m表示任务请求的服务缓存需求，l _m ∈L；t _m表示任务请求执行的总时延。

6.如权利要求5所述的缓存调度模型训练方法，其特征在于，第二优化目标为：

Ȓ(t,n)表示智能体n在时隙t上的折扣奖励；V _φ (S(t))表示更新后的价值评估模块计算的全局状态S(t)对应的状态价值；

Ȓ(t,n)=r(t,n)+γV _φold (S(t+1))γ为奖励折扣因子，V _φold (S(t+1))表示更新前的价值评估模块计算的全局状态S(t+1)对应的状态价值。

7.一种多边缘协作缓存调度优化系统，其特征在于，包括存储器，存储器存储有计算机程序，计算机程序被执行时用于实现如权利要求1-2任一项所述的多边缘协作缓存调度优化方法。

8.如权利要求7所述的多边缘协作缓存调度优化系统，其特征在于，还包括处理器，处理器与存储器连接，处理器用于执行所述计算机程序，以实现如权利要求1-2任一项所述的多边缘协作缓存调度优化方法。