CN114697394B - 基于离散maddpg的边缘缓存决策模型、方法和系统 - Google Patents

基于离散maddpg的边缘缓存决策模型、方法和系统 Download PDF

Info

Publication number
CN114697394B
CN114697394B CN202210586227.3A CN202210586227A CN114697394B CN 114697394 B CN114697394 B CN 114697394B CN 202210586227 A CN202210586227 A CN 202210586227A CN 114697394 B CN114697394 B CN 114697394B
Authority
CN
China
Prior art keywords
content
rsu
time slot
representing
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210586227.3A
Other languages
English (en)
Other versions
CN114697394A (zh
Inventor
魏振春
傅宇
吕增威
张本宏
樊玉琦
石雷
徐娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210586227.3A priority Critical patent/CN114697394B/zh
Publication of CN114697394A publication Critical patent/CN114697394A/zh
Application granted granted Critical
Publication of CN114697394B publication Critical patent/CN114697394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于离散MADDPG的边缘缓存决策模型、方法和系统,所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型基于神经网络构建,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策。本发明将多智能体深度强化学习中的离散MADDPG算法引入协作边缘缓存,能够实现智能体间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。

Description

基于离散MADDPG的边缘缓存决策模型、方法和系统
技术领域
本发明涉及协作边缘缓存领域,尤其涉及一种基于离散MADDPG的边缘缓存决策模型、方法和系统。
背景技术
随着5G技术的逐步成熟,用户可以使用移动设备体验VR(虚拟现实)、超高清实时直播等应用,但这些应用会带来数据量的激增,而体验用户却需要低延迟的服务质量,传统的云服务方式因为用户距离云服务器较远导致延迟较高,从而无法满足用户对VR等应用的高质量体验。
针对传统云服务方式的不足,边缘缓存技术逐渐成为一种可行的方案。边缘缓存技术是将部分云端数据下放到离用户更近的边缘端,从而使用户可以得到更低延迟的请求响应。边缘缓存技术可分为单节点边缘缓存和协作边缘缓存,因为单节点边缘缓存存储的内容有限,所以协作边缘缓存技术是目前主流的技术。
然而目前大部分的协作边缘缓存方案仅考虑内容传输时的协作,而不考虑缓存决策时的协作,即在缓存决策时仅依据单个节点的缓存状态,而不考虑其他节点的缓存状态。这种形式的协作缓存可能导致通信网络中RSU(路边单元)存储的内容冗余过高,从而降低缓存空间的利用率。
发明内容
为了解决上述现有技术中的协作缓存方案缓存空间利用率低的缺陷,本发明提出了一种基于离散MADDPG的边缘缓存决策模型,大大提高了通信网络的缓存命中率,提高了缓存空间利用效率。
本发明提出的一种基于离散MADDPG(多智能体深度确定性策略梯度)的边缘缓存决策模型,适用于用户终端、云服务器和多个RSU组成的通信网络,所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S j,t ,令RSUj在时隙t时决定缓存下来的内容集合记作
Figure 622827DEST_PATH_IMAGE001
,RSUj在时隙t时选择从缓存空间中移出的内容集合记作
Figure 155440DEST_PATH_IMAGE002
,RSUj在时隙t时的动作决策记作
Figure 885499DEST_PATH_IMAGE003
Figure 616694DEST_PATH_IMAGE004
其中,F j,t 为RSUj在时隙t时的内容存储状态、R j,t 为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;
Figure 937954DEST_PATH_IMAGE005
为RSUj在时隙t时已缓存的内容的流行度集合、
Figure 223442DEST_PATH_IMAGE006
为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;
Figure 226033DEST_PATH_IMAGE007
为RSUj在时隙t时已缓存的内容的大小、
Figure 280577DEST_PATH_IMAGE008
为RSUj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;
Figure 775668DEST_PATH_IMAGE009
Figure 282872DEST_PATH_IMAGE010
为二进制数,
Figure 151471DEST_PATH_IMAGE011
;RSU和云服务器存储的所有内容集合为II={内容1,内容2,…,内容i,…,内容i max }i max 为内容集合I中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤ii max
Figure 326101DEST_PATH_IMAGE012
Figure 926846DEST_PATH_IMAGE013
表示RSUj在时隙t内处理的第k j 个请求指向的内容,
Figure 983664DEST_PATH_IMAGE014
表示RSUj在时隙t内处理的请求的总数量;RSUj在时隙t内处理的任一个请求指向的内容均属于内容集合I,记作
Figure 328058DEST_PATH_IMAGE015
设RSUj在时隙t时缓存的内容集合为
Figure 888352DEST_PATH_IMAGE016
,将
Figure 722316DEST_PATH_IMAGE017
中的第n个内容记作内容
Figure 204113DEST_PATH_IMAGE018
;RSUj在时隙t时未命中的内容集合为
Figure 617776DEST_PATH_IMAGE019
,将
Figure 301086DEST_PATH_IMAGE020
中的第m个内容记作内容
Figure 509214DEST_PATH_IMAGE021
,内容i的流行度记作p i ,内容i的大小记作c i
Figure 743886DEST_PATH_IMAGE022
优选的,内容i的流行度记作p i ,其计算公式如下:
Figure 430082DEST_PATH_IMAGE023
其中,u i 表示内容i在内容集合I的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。
优选的,通过以下步骤训练获得:
S1、基于神经网络构建基础模型,基础模型包括Online-1策略网络、Online-2策略网络、Online价值网络、Target-1策略网络、Target-2策略网络和Target价值网络;设置经验池用于存储经验样本;
RSUj在时隙t时的状态记作S j,t ,Online-1策略网络根据状态S j,t 生成RSUj决定缓存的内容集合
Figure 230548DEST_PATH_IMAGE024
,Online-2策略网络根据S j,t 生成RSUj将要移出缓存空间的内容集合
Figure 343997DEST_PATH_IMAGE002
;令
Figure 800386DEST_PATH_IMAGE025
A j,t 表示RSUj在时隙t时的动作决策;
Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A j,t }进行评价;所述轮询包含多个时隙;
将RSUj执行动作决策后的状态记作下一个状态S’ j,t ,Target-1策略网络根据下一个状态S’ j,t 生成RSUj决定缓存的内容集合
Figure 555853DEST_PATH_IMAGE026
,Target-2策略网络根据下一个状态S’ j,t 生成RSUj将要移出缓存空间的内容集合
Figure 210825DEST_PATH_IMAGE027
A’ j,t 表示下一个动作决策,
Figure 760755DEST_PATH_IMAGE028
Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A’ j,t }进行评价;
从历史数据中获取训练样本集合
Figure 235599DEST_PATH_IMAGE029
T S 表示训练样本集合对应的采样时隙维度,记作历史时隙序列
Figure 63265DEST_PATH_IMAGE030
T S 包含n s 个时隙;q表示通信网络中RSU的数量;
S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:
S21、初始化基础模型,将n s 个时隙划分为n e 个等长的轮询,每个轮询包含多个时隙;令t=1;
S22、将RSUj在时隙t时的状态S j,t 输入到Online-1策略网络和Online-2策略网络以获取对应的动作决策A j,t ;结合A j,t S j,t 计算奖励Z j,t 和下一个状态S’ j,t ,奖励Z j,t 根据设定的奖励规则进行计算,将S j,t A j,t Z j,t S’ j,t 存入经验池中;
Figure 776006DEST_PATH_IMAGE031
S j,t S’ j,t 满足以下约束条件:
Figure 762417DEST_PATH_IMAGE032
其中,c i 表示内容i的大小,C表示RSUj的缓存空间大小,T j,t 表示RSUj在时隙t时存储的所有内容的传输时间,
Figure 193398DEST_PATH_IMAGE033
表示时隙t内在RSUj中命中的所有内容的总传输时间,
Figure 87405DEST_PATH_IMAGE034
表示在RSUj附近的RSU中命中的所有内容的传输时间,在RSUj附近的RSU指的是通信覆盖范围与RSUj通信覆盖范围邻接的RSU,
Figure 654652DEST_PATH_IMAGE035
表示未在边缘端命中而由云服务器传输的所有内容的传输时间;其中,
Figure 811964DEST_PATH_IMAGE036
其中,D j,t 表示RSUj在时隙t上传输的内容集合,d为内容集合D j,t 中的任一个内容,c d 表示内容d的大小,v j,t 表示RSU与用户终端之间的无线传输速度,v o 表示RSU之间的传输速率,v r 表示RSU与云服务器之间的传输速率;
Figure 730242DEST_PATH_IMAGE037
为二进制数,X o 、X r 为二元变量;
Figure 365622DEST_PATH_IMAGE038
其中,表示序数;
S23、判断t能否被n e 整除,不能,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;能,则由Online价值网络对最近一个轮询中产生的动作决策集合进行评价并输出评价值Q j,t ,Online-1策略网络和Online-2策略网络根据评价值Q j,t 对网络参数进行梯度更新,然后执行以下步骤S24;
S24、将S’ j,t 输入Target-1策略网络和Target-2策略网络以获取对应的下一个动作决策A’ j,t ;Target价值网络对最近一个轮询中产生的下一个动作决策集合进行评价并输出评价值Q’ j,t ;以| Q j,t - Q’ j,t |2作为损失函数值对Online价值网络参数进行梯度更新,然后对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新;
S25、判断t是否等于n s ;否,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;是,则将参数固定的Online-1策略网络和Online-2策略网络组合成该RSUj对应的边缘缓存决策模型。
优选的,步骤S22中设定的奖励规则为:
Figure 52956DEST_PATH_IMAGE039
Figure 115589DEST_PATH_IMAGE040
均恒等于1,a 1 a 2 均指代内容;
Figure 521163DEST_PATH_IMAGE001
表示RSUj在时隙t时决定缓存下来的内容集合,
Figure 225814DEST_PATH_IMAGE041
表示RSUj在时隙t时选择从缓存空间中移出的内容集合,
Figure 767654DEST_PATH_IMAGE042
表示RSUj在时隙t+1内处理的内容请求集合。
优选的,步骤S22中设定的奖励规则为:
Figure 266768DEST_PATH_IMAGE043
其中,
Figure 643128DEST_PATH_IMAGE044
表示时隙t上内容a的冗余度,
Figure 885890DEST_PATH_IMAGE045
表示函数,
Figure 282237DEST_PATH_IMAGE046
表示时隙t上内容a 1 的冗余度,
Figure 952252DEST_PATH_IMAGE047
表示时隙t上内容a 2 的冗余度;λ in λ out 为设定常数,分别表示正奖励因子和负奖励因子;
Figure 66839DEST_PATH_IMAGE048
均恒等于1;
Figure 847713DEST_PATH_IMAGE001
表示RSUj在时隙t时决定缓存下来的内容集合,
Figure 364145DEST_PATH_IMAGE041
表示RSUj在时隙t时选择从缓存空间中移出的内容集合,R j,t+1 表示RSUj在时隙t+1内处理的内容请求集合;内容i在时隙t上的冗余度
Figure 205062DEST_PATH_IMAGE049
的计算公式为:
Figure 806945DEST_PATH_IMAGE050
q表示RSU总数量。
优选的,S1中Online-1策略网络和Online-2策略网络输出的集合
Figure 391510DEST_PATH_IMAGE051
和集合
Figure 559186DEST_PATH_IMAGE002
满足以下约束:
Figure 774267DEST_PATH_IMAGE052
其中,a3、a4均指代内容,c a3 表示内容a3的大小,c a4 表示内容a4的大小;
Target-1策略网络和Target-2策略网络输出的集合
Figure 394604DEST_PATH_IMAGE053
和集合
Figure 782860DEST_PATH_IMAGE054
满足以下约束:
Figure 8305DEST_PATH_IMAGE055
其中,a5、a6均指代内容,c a5 表示内容a5的大小,c a6 表示内容a6的大小。
优选的,基础模型采用马尔科夫博弈模型表示。
本发明还提出了一种基于离散MADDPG的边缘缓存决策方法,采用上述边缘缓存决策模型实现协作边缘缓存。
本发明提出的一种基于离散MADDPG的边缘缓存决策方法,包括以下步骤:
SA1、获取边缘缓存决策模型和当前时隙各RSU的状态,所述边缘缓存决策模型采用所述的基于离散MADDPG的边缘缓存决策模型,RSUj在当前时隙的状态记作S j,T
Figure 193954DEST_PATH_IMAGE056
T表示当前时隙,F j,T 为RSUj在当前时隙的内容存储状态、R j,T 为RSUj在当前时隙内处理的内容请求集合、
Figure 36008DEST_PATH_IMAGE057
为RSUj在当前时隙已缓存的内容的流行度集合、
Figure 962376DEST_PATH_IMAGE058
为RSUj在当前时隙未命中的内容的流行度集合;
Figure 839065DEST_PATH_IMAGE059
为RSUj在当前时隙已缓存的内容的大小、
Figure 458265DEST_PATH_IMAGE060
为RSUj在当前时隙未命中的内容的大小;
SA2、将各RSU的当前状态输入对应的边缘缓存决策模型,获取各RSU的动作决策,RSUj在当前时隙的动作决策记作A j,T
Figure 256457DEST_PATH_IMAGE061
表示RSUj在当前时隙决定缓存下来的内容集合,
Figure 455357DEST_PATH_IMAGE002
表示RSUj在当前时隙选择从缓存空间中移出的内容集合;
SA3、控制各RSU执行对应的动作决策。
本发明还提出了一种基于离散MADDPG的边缘缓存决策系统,为上述基于离散MADDPG的边缘缓存决策方法提供载体。
本发明提出的一种基于离散MADDPG的边缘缓存决策系统,包括存储模块,存储模块中存储有计算机程序和所述的基于离散MADDPG的边缘缓存决策模型,所述计算机程序被执行时用于实现所述的基于离散MADDPG的边缘缓存决策方法。
优选的,还包括处理器,处理器与存储模块连接,处理器用于执行所述计算机程序以实现所述的基于离散MADDPG的边缘缓存决策方法。
本发明的优点在于:
(1)本发明中的边缘缓存决策模型将离散MADDPG算法引入协作边缘缓存,能够实现智能体(即RSU)间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。本发明中的边缘缓存决策模型的输入数据为系统中RSU的状态,其输出为对应的RSU的动作决策。本发明中定义的RSU的状态包括内容存储、迁入迁出内容的流行度、迁入迁出内容的大小等。如此,本发明可保证系统缓存命中率能够随缓存空间增大而保持较为稳定的增长;缓存命中率为整个通信网络中所有智能体在设定数量的时隙内缓存命中数与处理请求数的比值。
(2)本发明中采用离散MADDPG算法获取边缘缓存决策模型,MADDPG算法强大的决策能力能够很好地应对协作缓存的不稳定性,做出最优的缓存决策,从而提高通信网络的缓存命中率,使通信网络处理更多的内容请求。本发明能够在一个时隙内决策缓存多个内容且移除缓存空间中的多个内容,而现有的大部分协作缓存模型在一个时隙仅仅决定一个未命中的内容是否缓存,可见采用本发明的边缘缓存决策模型有着更高缓存效率。另外,为了使智能体能够同时做出缓存内容和移除内容的决策,本发明将MADDPG传统架构的单Actor网络改进为双Actor网络,让一个Actor网络输出需缓存的内容,另一个Actor网络输出需移出缓存空间的内容。
(3)本发明在训练边缘缓存决策模型的过程中,可以通过通信网络的全局状态来训练网络的参数,从而可以很好地解决多智能体训练时环境不稳定的问题,得到最优的缓存策略参数。另外因为智能体能够掌握全局的状态,从而能够了解通信网络的内容冗余情况并通过改进的奖励来控制冗余。该算法在执行时只需智能体的局部状态而无需通信网络的全局状态,那么在实际应用时能够有较快的执行效率。本发明充分考虑了迁入迁出内容对缓存空间的影响,通过设置约束,保证了RSU动作过程中缓存空间的正常工作。
(4)本发明中通过奖励的设置,进一步提高了边缘缓存决策模型训练过程中的强化学习能力,有利于提高模型性能。本发明中,给出了两种奖励规则,但具体实施时,奖励也可根据现有的任意方法进行计算。
(5)本发明还提出了一种基于离散MADDPG的边缘缓存决策方法,采用上述边缘缓存决策模型控制通信网络中各RSU的存储动作,如此不仅在内容传输时进行协作,而且在缓存决策时也能够进行协作,从而在缓存决策时也能够了解通信网络的冗余情况,进而进行缓存冗余控制。
(6)本发明还提出了一种基于离散MADDPG的边缘缓存决策系统,为上述基于离散MADDPG的边缘缓存决策方法的实施提供了载体。
附图说明
图1为系统中基于离散MADDPG的边缘缓存决策模型的获取方法;
图2为基于离散MADDPG的边缘缓存决策模型具体的获取方法流程图;
图3为一种基于离散MADDPG的边缘缓存决策方法流程图;
图4为实施例中基于离散MADDPG的边缘缓存决策模型的收敛对比图;
图5为Zipf参数θ=0.7时各算法缓存命中率对比图;
图6为Zipf参数θ=0.9时各算法缓存命中率对比图;
图7为Zipf参数θ=1.1时各算法缓存命中率对比图;
图8为Zipf参数θ=0.7时各算法请求处理数对比图;
图9为Zipf参数θ=0.9时各算法请求处理数对比图;
图10为Zipf参数θ=1.1时各算法请求处理数对比图;
图11为内容冗余度分布图。
具体实施方式
实施例
本实施例结合一个具体的通信网络对本发明提供的基于离散MADDPG的边缘缓存决策系统的效果进行验证,本实施例中设置相关参数如下表1所示:
表1:实施例参数设置
Figure 655394DEST_PATH_IMAGE062
本实施例中定义一个轮询等于100个时隙,即n e =100n s 。本实施例中以轮询为横坐标以每一个轮询内所有RSU的奖励均值z avg 为纵坐标绘制波形以估算本发明中边缘缓存决策模型的收敛性;
Figure 445496DEST_PATH_IMAGE063
z j,t 为RSUj在时隙t上的奖励。
本实施例中,采用本发明提供的边缘缓存决策模型获得各RSU的动作决策,具体如图2所示。该边缘缓存决策模型的学习过程如图1、图3所示。具体的,本实施例中采用如图3所示方法训练边缘缓存决策模型时,步骤S24中对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新时采用的滑动更新因子如表1所示,即τ=0.01。参照图4,本实施例经过仿真可知,该边缘缓存决策模型在不同Zipf(齐普夫定律)分布下的收敛性不同,具体的:当θ=0.7时,所述模型大概在第30个轮询处收敛;当θ=0.9时,所述模型大概在第50个轮询处收敛;当θ=1.1时,所述模型大概在第30个轮询处收敛。显然,收敛后的奖励值随θ值增大而增大,这是因为当Zipf分布的θ越大时,内容请求越集中、更规律,从而在智能体即RSU做出正确的缓存决策后,有更多的内容请求在下一个时隙命中,由此奖励值会更高。
为了进一步验证本发明的技术效果,以下结合3个对比例对本发明提供的边缘缓存决策模型进行说明。
表2:对比例统计表
Figure 262142DEST_PATH_IMAGE064
系统缓存命中率分析
图5-7展示了表2中4种算法在在采用不同偏斜因子θ的Zipf(齐普夫定律)分布下的系统缓存命中率随智能体(即RSU)缓存空间变化而变化的情况。图5-7中的横坐标表示智能体(即RSU)缓存空间的大小,纵坐标表示缓存命中率,缓存命中率为整个通信网络中所有智能体在100个时隙内缓存命中数与处理请求数的比值。
结合图5-7可知,在θ取任意值时,采用表2中任一算法的系统的缓存命中率均随着智能体缓存空间的增加而升高;且本发明实施例对应的系统的缓存命中率始终是最高的,即本实施例采用离散MADDPG算法构建的边缘缓存决策模型能够使系统处理更多的内容请求。
从图7可以看出,θ为1.1且智能体的缓存空间为400M时,本发明实施例的缓存命中率达到75%,相比DDPG算法即对比例3,其缓存命中率提升了7.1%,相比传统的LRU算法即对比例2,缓存命中率提升了15.4%,这是因为离散MADDPG算法强大的决策能力能够很好地应对协作缓存的不稳定性,做出最优的缓存决策,从而提高系统的缓存命中率。
通过图5-7也可以看出随着θ的增加,本发明实施例与3个对比例的缓存命中率都随之增加,但是当θ为1.1且智能体缓存空间增加到300M时,对比例1和对比例2的缓存命中率难以随着缓存空间增大而显著增大,这是因为智能体缓存空间已经能够缓存大部分内容流行度高的内容,当缓存空间继续增大的话,智能体会缓存请求频次低的内容,从而导致缓存命中率增长不显著。而本发明实施例和对比例3除内容流行度外,还综合考虑了缓存状态、请求内容大小等,因此缓存命中率能够随缓存空间增大而保持较为稳定的增长。而本实施例采用离散MADDPG算法训练的边缘缓冲决策模型相对于对比例3中DDPG算法进一步考虑到了智能体之间的互动,因此本实施例中的系统在对比例3的基础上进一步显著提高了缓存命中率。
系统请求处理能力分析
图8-10展示了4种算法在采用不同偏斜因子θ的Zipf(齐普夫定律)分布下的系统处理的请求数随智能体缓存空间变化而变化的情况。图中的横坐标为智能体缓存空间的大小,纵坐标表示通信网络中所有智能体在一个轮询上处理的内容请求数之和。
通过图8-10可以看出随着参数θ和智能体缓存空间的变化,本发明实施例提出的系统始终比另外3个对比例有着更高的请求处理能力。另外,通过图10可以看出当Zipf分布的θ为1.1且智能体的缓存空间为400M时,本发明实施例中系统处理的请求数达到了4780,相比采用DDPG算法的对比例3提升了3.6%,相比传统的采用LRU算法的对比例2和采用FIFO算法的对比例1分别提升了6%和7%。显然,基于学习的算法相比传统算法有着更高的处理请求的能力,这是因为基于学习的算法能够在内容数量较大且状态不确定时通过训练和奖励反馈机制不断寻找最优的缓存策略,让更多的请求在本地得到满足。而基于离散MADDPG算法的本发明实施例比基于DDPG的对比例3性能更优则是因为离散MADDPG能同时考虑智能体状态和其他智能体动作对环境的影响,从而能够基于整个通信网络的状态做出更优的缓存决策,进一步提升系统处理请求的能力。
缓存冗余度分析
图11展示了本发明实施例和3个对比例在Zipf参数θ为0.7且智能体缓存空间为400M时的内容冗余分布情况,其中纵坐标为每个内容在100个时隙上的平均冗余度
Figure 795892DEST_PATH_IMAGE065
,内容i的平均冗余度计算为:
Figure 850435DEST_PATH_IMAGE066
Figure 280280DEST_PATH_IMAGE067
表示时隙t时内容i的冗余度。
从图11可以看出基于LRU算法的对比例2和基于DDPG算法的对比例3有较多的离群点,这是因为LRU算法的机制会使智能体缓存内容流行度较高的内容,那么大部分内容流行度较低的内容较少有机会被缓存,从而导致内容冗余度较分散。而DDPG算法可能在训练时更多的考虑了内容流行度的特征而导致内容冗余度分散。基于FIFO算法的对比例1的内容冗余度比对比例2-3更集中,但是相比基于离散MADDPG算法的本发明实施例还是更为分散。另外,基于FIFO算法的对比例1的内容冗余度集中分布在0.12左右,而基于离散MADDPG算法的本发明实施例的内容冗余度集中分布在0.2左右,这表明本发明实施例中大部分内容在每个时隙至少会被其中一个智能体所缓存。另外从图中MADDPG算法的离群点可以看出离散MADDPG算法也能够抑制产生较大的内容冗余度,可见离散MADDPG算法在训练时能够了解其他智能体的缓存状态,且利用奖励的反馈机制来辅助训练,从而能够达到控制冗余的效果。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

Claims (9)

1.一种基于离散MADDPG的边缘缓存决策方法,其特征在于,包括以下步骤:
SA1、获取边缘缓存决策模型和当前时隙各RSU的状态;
所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S j,t ,令RSUj在时隙t时决定缓存下来的内容集合记作
Figure 393529DEST_PATH_IMAGE001
RSUj在时隙t时选择从缓存空间中移出的内容集合记作
Figure 257580DEST_PATH_IMAGE002
,RSUj在时隙t时的动作决策记作
Figure 275215DEST_PATH_IMAGE003
其中,F j,t 为RSUj在时隙t时的内容存储状态、R j,t 为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;
Figure 815786DEST_PATH_IMAGE004
为RSUj在时隙t时已缓存的内容的流行度集合、
Figure 551661DEST_PATH_IMAGE005
为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;
Figure 219403DEST_PATH_IMAGE006
为RSUj在时隙t时已缓存的内容的大小、
Figure 357123DEST_PATH_IMAGE007
为RSUj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;
Figure 68596DEST_PATH_IMAGE008
Figure 88505DEST_PATH_IMAGE009
为二进制数,
Figure 294358DEST_PATH_IMAGE010
;RSU和云服务器存储的所有内容集合为I
Figure 286585DEST_PATH_IMAGE011
为内容集合I中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤ii max
Figure 185271DEST_PATH_IMAGE012
Figure 147935DEST_PATH_IMAGE013
表示RSUj在时隙t内处理的第k j 个请求指向的内容,
Figure 95162DEST_PATH_IMAGE014
表示RSUj在时隙t内处理的请求的总数量;RSUj在时隙t内处理的任一个请求指向的内容均属于内容集合I,记作
Figure 207475DEST_PATH_IMAGE015
设RSUj在时隙t时缓存的内容集合为
Figure 260750DEST_PATH_IMAGE016
,将
Figure 458514DEST_PATH_IMAGE017
中的第n个内容记作内容
Figure 271749DEST_PATH_IMAGE018
;RSUj在时隙t时未命中的内容集合为
Figure 972989DEST_PATH_IMAGE019
,将
Figure 462745DEST_PATH_IMAGE020
中的第m个内容记作内容
Figure 882225DEST_PATH_IMAGE021
,内容i的流行度记作p i ,内容i的大小记作c i
Figure 233572DEST_PATH_IMAGE022
RSUj在当前时隙的状态记作S j,T
Figure 54897DEST_PATH_IMAGE023
T表示当前时隙,F j,T 为RSUj在当前时隙的内容存储状态、R j,T 为RSUj在当前时隙内处理的内容请求集合、
Figure 715554DEST_PATH_IMAGE024
为RSUj在当前时隙已缓存的内容的流行度集合、
Figure 622330DEST_PATH_IMAGE025
为RSUj在当前时隙未命中的内容的流行度集合;
Figure 308527DEST_PATH_IMAGE026
为RSUj在当前时隙已缓存的内容的大小、
Figure 249938DEST_PATH_IMAGE027
为RSUj在当前时隙未命中的内容的大小;
SA2、将各RSU的当前状态输入对应的边缘缓存决策模型,获取各RSU的动作决策,RSUj在当前时隙的动作决策记作
Figure 566650DEST_PATH_IMAGE028
表示RSUj在当前时隙决定缓存下来的内容集合,
Figure 212919DEST_PATH_IMAGE029
表示RSUj在当前时隙选择从缓存空间中移出的内容集合;
SA3、控制各RSU执行对应的动作决策。
2.如权利要求1所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,内容i的流行度记作p i ,其计算公式如下:
Figure 906069DEST_PATH_IMAGE030
其中,u i 表示内容i在内容集合I的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。
3.如权利要求1所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,所述边缘缓存决策模型通过以下步骤训练获得:
S1、基于神经网络构建基础模型,基础模型包括Online-1策略网络、Online-2策略网络、Online价值网络、Target-1策略网络、Target-2策略网络和Target价值网络;设置经验池用于存储经验样本;
RSUj在时隙t时的状态记作S j,t ,Online-1策略网络根据状态S j,t 生成RSUj决定缓存的内容集合
Figure 436407DEST_PATH_IMAGE031
,Online-2策略网络根据S j,t 生成RSUj将要移出缓存空间的内容集合
Figure 455179DEST_PATH_IMAGE032
;令
Figure 320236DEST_PATH_IMAGE033
表示RSUj在时隙t时的动作决策;
Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A j,t }进行评价;所述轮询包含多个时隙;
将RSUj执行动作决策后的状态记作下一个状态S’ j,t ,Target-1策略网络根据下一个状态S’ j,t 生成RSUj决定缓存的内容集合
Figure 817076DEST_PATH_IMAGE034
,arget-2策略网络根据下一个状态S’ j,t 生成RSUj将要移出缓存空间的内容集合
Figure 467500DEST_PATH_IMAGE035
A’ j,t 表示下一个动作决策,
Figure 391594DEST_PATH_IMAGE036
Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A’ j,t }进行评价;
从历史数据中获取训练样本集合
Figure 743947DEST_PATH_IMAGE037
T S 表示训练样本集合对应的采样时隙维度,记作历史时隙序列
Figure 778899DEST_PATH_IMAGE038
T S 包含n s 个时隙;q表示通信网络中RSU的数量;
S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:
S21、初始化基础模型,将n s 个时隙划分为n e 个等长的轮询,每个轮询包含多个时隙;令t=1;
S22、将RSUj在时隙t时的状态S j,t 输入到Online-1策略网络和Online-2策略网络以获取对应的动作决策A j,t ;结合A j,t S j,t 计算奖励Z j,t 和下一个状态S’ j,t ,奖励Z j,t 根据设定的奖励规则进行计算,将S j,t A j,t Z j,t S’ j,t 存入经验池中;
Figure 549409DEST_PATH_IMAGE039
S j,t S’ j,t 满足以下约束条件:
Figure 378824DEST_PATH_IMAGE040
其中,c i 表示内容i的大小,C表示RSUj的缓存空间大小,T j,t 表示RSUj在时隙t时存储的所有内容的传输时间,
Figure 484052DEST_PATH_IMAGE041
表示时隙t内在RSUj中命中的所有内容的总传输时间,
Figure 322695DEST_PATH_IMAGE042
表示在RSUj附近的RSU中命中的所有内容的传输时间,在RSUj附近的RSU指的是通信覆盖范围与RSUj通信覆盖范围邻接的RSU,
Figure 682133DEST_PATH_IMAGE043
表示未在边缘端命中而由云服务器传输的所有内容的传输时间;其中,
Figure 948029DEST_PATH_IMAGE044
其中,D j,t 表示RSUj在时隙t上传输的内容集合,d为内容集合D j,t 中的任一个内容,c d 表示内容d的大小,v j,t 表示RSU与用户终端之间的无线传输速度,v o 表示RSU之间的传输速率,v r 表示RSU与云服务器之间的传输速率;
Figure 822444DEST_PATH_IMAGE045
为二进制数,X o 、X r 为二元变量
Figure 920238DEST_PATH_IMAGE046
其中,表示序数;
S23、判断t能否被n e 整除,不能,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;能,则由Online价值网络对最近一个轮询中产生的动作决策集合进行评价并输出评价值Q j,t ,Online-1策略网络和Online-2策略网络根据评价值Q j,t 对网络参数进行梯度更新,然后执行以下步骤S24;
S24、将S’ j,t 输入Target-1策略网络和Target-2策略网络以获取对应的下一个动作决策A’ j,t ;Target价值网络对最近一个轮询中产生的下一个动作决策集合进行评价并输出评价值Q’ j,t ;以
Figure 399760DEST_PATH_IMAGE047
作为损失函数值对Online价值网络参数进行梯度更新,然后对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新;
S25、判断t是否等于n s ;否,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;是,则将参数固定的Online-1策略网络和Online-2策略网络组合成该RSUj对应的边缘缓存决策模型。
4.如权利要求3所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,步骤S22中设定的奖励规则为:
Figure 836558DEST_PATH_IMAGE048
Figure 650799DEST_PATH_IMAGE049
均恒等于1,a 1 a 2 均指代内容;
Figure 627982DEST_PATH_IMAGE050
表示RSUj在时隙t时决定缓存下来的内容集合,
Figure 165274DEST_PATH_IMAGE051
表示RSUj在时隙t时选择从缓存空间中移出的内容集合,
Figure 38552DEST_PATH_IMAGE052
表示RSUj在时隙t+1内处理的内容请求集合。
5.如权利要求3所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,步骤S22中设定的奖励规则为:
Figure DEST_PATH_IMAGE053
其中,
Figure 543352DEST_PATH_IMAGE054
表示时隙t上内容a的冗余度,
Figure 261909DEST_PATH_IMAGE055
表示函数,
Figure 716024DEST_PATH_IMAGE056
表示时隙t上内容a 1 的冗余度,
Figure 743892DEST_PATH_IMAGE057
表示时隙t上内容a 2 的冗余度;λ in λ out 为设定常数,分别表示正奖励因子和负奖励因子;
Figure 283458DEST_PATH_IMAGE058
均恒等于1;
Figure 805706DEST_PATH_IMAGE059
表示RSUj在时隙t时决定缓存下来的内容集合,
Figure 114327DEST_PATH_IMAGE060
表示RSUj在时隙t时选择从缓存空间中移出的内容集合,R j,t+1 表示RSUj在时隙t+1内处理的内容请求集合;内容i在时隙t上的冗余度
Figure 860566DEST_PATH_IMAGE061
的计算公式为:
Figure 862328DEST_PATH_IMAGE062
q表示RSU总数量。
6.如权利要求3所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,S1中Online-1策略网络和Online-2策略网络输出的集合
Figure 391529DEST_PATH_IMAGE059
和集合
Figure 554657DEST_PATH_IMAGE060
满足以下约束:
Figure 924327DEST_PATH_IMAGE063
其中,a3、a4均指代内容,c a3 表示内容a3的大小,c a4 表示内容a4的大小;
Target-1策略网络和Target-2策略网络输出的集合
Figure 704065DEST_PATH_IMAGE064
和集合
Figure 568115DEST_PATH_IMAGE065
满足以下约束:
Figure 585750DEST_PATH_IMAGE066
其中,a5、a6均指代内容,c a5 表示内容a5的大小,c a6 表示内容a6的大小。
7.如权利要求3所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,基础模型采用马尔科夫博弈模型表示。
8.一种基于离散MADDPG的边缘缓存决策系统,其特征在于,包括存储模块,存储模块中存储有计算机程序和边缘缓存决策模型,所述计算机程序被执行时用于实现如权利要求7所述的基于离散MADDPG的边缘缓存决策方法。
9.如权利要求8所述的基于离散MADDPG的边缘缓存决策系统,其特征在于,还包括处理器,处理器与存储模块连接,处理器用于执行所述计算机程序以实现如权利要求7所述的基于离散MADDPG的边缘缓存决策方法。
CN202210586227.3A 2022-05-27 2022-05-27 基于离散maddpg的边缘缓存决策模型、方法和系统 Active CN114697394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210586227.3A CN114697394B (zh) 2022-05-27 2022-05-27 基于离散maddpg的边缘缓存决策模型、方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210586227.3A CN114697394B (zh) 2022-05-27 2022-05-27 基于离散maddpg的边缘缓存决策模型、方法和系统

Publications (2)

Publication Number Publication Date
CN114697394A CN114697394A (zh) 2022-07-01
CN114697394B true CN114697394B (zh) 2022-08-16

Family

ID=82145596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210586227.3A Active CN114697394B (zh) 2022-05-27 2022-05-27 基于离散maddpg的边缘缓存决策模型、方法和系统

Country Status (1)

Country Link
CN (1) CN114697394B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117939505B (zh) * 2024-03-22 2024-05-24 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111385734A (zh) * 2020-02-19 2020-07-07 重庆邮电大学 一种车联网内容缓存决策优化方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113094982A (zh) * 2021-03-29 2021-07-09 天津理工大学 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN113382383A (zh) * 2021-06-11 2021-09-10 浙江工业大学 一种基于策略梯度的公交车辆计算任务卸载方法
CN113726894A (zh) * 2021-09-01 2021-11-30 福建师范大学 一种基于深度强化学习的多车应用计算卸载方法及终端
CN114143346A (zh) * 2021-11-29 2022-03-04 广东工业大学 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN114205782A (zh) * 2022-02-18 2022-03-18 中国电子技术标准化研究院 基于云边协同的时延最优缓存和路由方法、装置及系统
CN114374741A (zh) * 2022-01-13 2022-04-19 南昌工程学院 Mec环境下基于强化学习的动态分组车联网缓存方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096873A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 자율주행시스템에서 차량과 서버의 연결 설정방법 및 이를 위한 장치
US11494649B2 (en) * 2020-01-31 2022-11-08 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111385734A (zh) * 2020-02-19 2020-07-07 重庆邮电大学 一种车联网内容缓存决策优化方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113094982A (zh) * 2021-03-29 2021-07-09 天津理工大学 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN113382383A (zh) * 2021-06-11 2021-09-10 浙江工业大学 一种基于策略梯度的公交车辆计算任务卸载方法
CN113726894A (zh) * 2021-09-01 2021-11-30 福建师范大学 一种基于深度强化学习的多车应用计算卸载方法及终端
CN114143346A (zh) * 2021-11-29 2022-03-04 广东工业大学 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN114374741A (zh) * 2022-01-13 2022-04-19 南昌工程学院 Mec环境下基于强化学习的动态分组车联网缓存方法
CN114205782A (zh) * 2022-02-18 2022-03-18 中国电子技术标准化研究院 基于云边协同的时延最优缓存和路由方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动边缘计算中的低能耗任务卸载决策算法;张文杰;《合肥工业大学学报》;20200720;全文 *

Also Published As

Publication number Publication date
CN114697394A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN108063961B (zh) 一种基于强化学习的自适应码率视频传输方法以及系统
CN111092823B (zh) 一种自适应调节拥塞控制初始窗口的方法和系统
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
CN114697394B (zh) 基于离散maddpg的边缘缓存决策模型、方法和系统
CN113282786B (zh) 一种基于深度强化学习的全景视频边缘协作缓存替换方法
CN115809147B (zh) 多边缘协作缓存调度优化方法、系统及模型训练方法
CN115633380B (zh) 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN113687960A (zh) 一种基于深度强化学习的边缘计算智能缓存方法
CN112511336A (zh) 一种边缘计算系统中的在线服务放置方法
CN112383485A (zh) 一种网络拥塞控制方法及装置
CN113012013A (zh) 一种在车联网中基于深度强化学习的协同边缘缓存方法
CN115344395A (zh) 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
CN113132765A (zh) 码率决策模型训练方法、装置、电子设备及存储介质
CN113114762B (zh) 一种数据缓存方法及系统
CN112291284A (zh) 一种内容推送方法、装置和计算机可读存储介质
CN113064907B (zh) 一种基于深度强化学习的内容更新方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN115361734A (zh) 基于信息时效性的功率和irs相移联合优化方法及装置
CN115643176A (zh) 社交车联网去中心化协作缓存方法
CN115208952B (zh) 一种智慧协同内容缓存方法
CN117811846B (zh) 基于分布式系统的网络安全检测方法、系统、设备及介质
CN116209015B (zh) 一种边缘网络缓存调度方法、系统和存储介质
CN117939505B (zh) 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant