CN114697394B - 基于离散maddpg的边缘缓存决策模型、方法和系统 - Google Patents
基于离散maddpg的边缘缓存决策模型、方法和系统 Download PDFInfo
- Publication number
- CN114697394B CN114697394B CN202210586227.3A CN202210586227A CN114697394B CN 114697394 B CN114697394 B CN 114697394B CN 202210586227 A CN202210586227 A CN 202210586227A CN 114697394 B CN114697394 B CN 114697394B
- Authority
- CN
- China
- Prior art keywords
- content
- rsu
- time slot
- representing
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
基于离散MADDPG的边缘缓存决策模型、方法和系统,所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型基于神经网络构建,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策。本发明将多智能体深度强化学习中的离散MADDPG算法引入协作边缘缓存,能够实现智能体间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。
Description
技术领域
本发明涉及协作边缘缓存领域,尤其涉及一种基于离散MADDPG的边缘缓存决策模型、方法和系统。
背景技术
随着5G技术的逐步成熟,用户可以使用移动设备体验VR(虚拟现实)、超高清实时直播等应用,但这些应用会带来数据量的激增,而体验用户却需要低延迟的服务质量,传统的云服务方式因为用户距离云服务器较远导致延迟较高,从而无法满足用户对VR等应用的高质量体验。
针对传统云服务方式的不足,边缘缓存技术逐渐成为一种可行的方案。边缘缓存技术是将部分云端数据下放到离用户更近的边缘端,从而使用户可以得到更低延迟的请求响应。边缘缓存技术可分为单节点边缘缓存和协作边缘缓存,因为单节点边缘缓存存储的内容有限,所以协作边缘缓存技术是目前主流的技术。
然而目前大部分的协作边缘缓存方案仅考虑内容传输时的协作,而不考虑缓存决策时的协作,即在缓存决策时仅依据单个节点的缓存状态,而不考虑其他节点的缓存状态。这种形式的协作缓存可能导致通信网络中RSU(路边单元)存储的内容冗余过高,从而降低缓存空间的利用率。
发明内容
为了解决上述现有技术中的协作缓存方案缓存空间利用率低的缺陷,本发明提出了一种基于离散MADDPG的边缘缓存决策模型,大大提高了通信网络的缓存命中率,提高了缓存空间利用效率。
本发明提出的一种基于离散MADDPG(多智能体深度确定性策略梯度)的边缘缓存决策模型,适用于用户终端、云服务器和多个RSU组成的通信网络,所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S j,t ,令RSUj在时隙t时决定缓存下来的内容集合记作,RSUj在时隙t时选择从缓存空间中移出的内容集合记作,RSUj在时隙t时的动作决策记作;
其中,F j,t 为RSUj在时隙t时的内容存储状态、R j,t 为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;为RSUj在时隙t时已缓存的内容的流行度集合、为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;为RSUj在时隙t时已缓存的内容的大小、为RSUj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;
为二进制数,;RSU和云服务器存储的所有内容集合为I,I={内容1,内容2,…,内容i,…,内容i max },i max 为内容集合I中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤i≤i max ;
优选的,内容i的流行度记作p i ,其计算公式如下:
其中,u i 表示内容i在内容集合I的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。
优选的,通过以下步骤训练获得:
S1、基于神经网络构建基础模型,基础模型包括Online-1策略网络、Online-2策略网络、Online价值网络、Target-1策略网络、Target-2策略网络和Target价值网络;设置经验池用于存储经验样本;
RSUj在时隙t时的状态记作S j,t ,Online-1策略网络根据状态S j,t 生成RSUj决定缓存的内容集合,Online-2策略网络根据S j,t 生成RSUj将要移出缓存空间的内容集合;令,A j,t 表示RSUj在时隙t时的动作决策;
Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A j,t }进行评价;所述轮询包含多个时隙;
将RSUj执行动作决策后的状态记作下一个状态S’ j,t ,Target-1策略网络根据下一个状态S’ j,t 生成RSUj决定缓存的内容集合,Target-2策略网络根据下一个状态S’ j,t 生成RSUj将要移出缓存空间的内容集合,A’ j,t 表示下一个动作决策,;
Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A’ j,t }进行评价;
S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:
S21、初始化基础模型,将n s 个时隙划分为n e 个等长的轮询,每个轮询包含多个时隙;令t=1;
S22、将RSUj在时隙t时的状态S j,t 输入到Online-1策略网络和Online-2策略网络以获取对应的动作决策A j,t ;结合A j,t 和S j,t 计算奖励Z j,t 和下一个状态S’ j,t ,奖励Z j,t 根据设定的奖励规则进行计算,将S j,t 、A j,t 、Z j,t 、S’ j,t 存入经验池中;
S j,t 和S’ j,t 满足以下约束条件:
其中,c i 表示内容i的大小,C表示RSUj的缓存空间大小,T j,t 表示RSUj在时隙t时存储的所有内容的传输时间,表示时隙t内在RSUj中命中的所有内容的总传输时间,表示在RSUj附近的RSU中命中的所有内容的传输时间,在RSUj附近的RSU指的是通信覆盖范围与RSUj通信覆盖范围邻接的RSU,表示未在边缘端命中而由云服务器传输的所有内容的传输时间;其中,
其中,D j,t 表示RSUj在时隙t上传输的内容集合,d为内容集合D j,t 中的任一个内容,c d 表示内容d的大小,v j,t 表示RSU与用户终端之间的无线传输速度,v o 表示RSU之间的传输速率,v r 表示RSU与云服务器之间的传输速率;
其中,ᴪ表示序数;
S23、判断t能否被n e 整除,不能,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;能,则由Online价值网络对最近一个轮询中产生的动作决策集合进行评价并输出评价值Q j,t ,Online-1策略网络和Online-2策略网络根据评价值Q j,t 对网络参数进行梯度更新,然后执行以下步骤S24;
S24、将S’ j,t 输入Target-1策略网络和Target-2策略网络以获取对应的下一个动作决策A’ j,t ;Target价值网络对最近一个轮询中产生的下一个动作决策集合进行评价并输出评价值Q’ j,t ;以| Q j,t - Q’ j,t |2作为损失函数值对Online价值网络参数进行梯度更新,然后对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新;
S25、判断t是否等于n s ;否,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;是,则将参数固定的Online-1策略网络和Online-2策略网络组合成该RSUj对应的边缘缓存决策模型。
优选的,步骤S22中设定的奖励规则为:
优选的,步骤S22中设定的奖励规则为:
其中,表示时隙t上内容a的冗余度,表示函数,表示时隙t上内容a 1 的冗余度,表示时隙t上内容a 2 的冗余度;λ in 、λ out 为设定常数,分别表示正奖励因子和负奖励因子;均恒等于1;表示RSUj在时隙t时决定缓存下来的内容集合,表示RSUj在时隙t时选择从缓存空间中移出的内容集合,R j,t+1 表示RSUj在时隙t+1内处理的内容请求集合;内容i在时隙t上的冗余度的计算公式为:
q表示RSU总数量。
其中,a3、a4均指代内容,c a3 表示内容a3的大小,c a4 表示内容a4的大小;
其中,a5、a6均指代内容,c a5 表示内容a5的大小,c a6 表示内容a6的大小。
优选的,基础模型采用马尔科夫博弈模型表示。
本发明还提出了一种基于离散MADDPG的边缘缓存决策方法,采用上述边缘缓存决策模型实现协作边缘缓存。
本发明提出的一种基于离散MADDPG的边缘缓存决策方法,包括以下步骤:
SA1、获取边缘缓存决策模型和当前时隙各RSU的状态,所述边缘缓存决策模型采用所述的基于离散MADDPG的边缘缓存决策模型,RSUj在当前时隙的状态记作S j,T ,,T表示当前时隙,F j,T 为RSUj在当前时隙的内容存储状态、R j,T 为RSUj在当前时隙内处理的内容请求集合、为RSUj在当前时隙已缓存的内容的流行度集合、为RSUj在当前时隙未命中的内容的流行度集合;为RSUj在当前时隙已缓存的内容的大小、为RSUj在当前时隙未命中的内容的大小;
SA2、将各RSU的当前状态输入对应的边缘缓存决策模型,获取各RSU的动作决策,RSUj在当前时隙的动作决策记作A j,T ,表示RSUj在当前时隙决定缓存下来的内容集合,表示RSUj在当前时隙选择从缓存空间中移出的内容集合;
SA3、控制各RSU执行对应的动作决策。
本发明还提出了一种基于离散MADDPG的边缘缓存决策系统,为上述基于离散MADDPG的边缘缓存决策方法提供载体。
本发明提出的一种基于离散MADDPG的边缘缓存决策系统,包括存储模块,存储模块中存储有计算机程序和所述的基于离散MADDPG的边缘缓存决策模型,所述计算机程序被执行时用于实现所述的基于离散MADDPG的边缘缓存决策方法。
优选的,还包括处理器,处理器与存储模块连接,处理器用于执行所述计算机程序以实现所述的基于离散MADDPG的边缘缓存决策方法。
本发明的优点在于:
(1)本发明中的边缘缓存决策模型将离散MADDPG算法引入协作边缘缓存,能够实现智能体(即RSU)间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。本发明中的边缘缓存决策模型的输入数据为系统中RSU的状态,其输出为对应的RSU的动作决策。本发明中定义的RSU的状态包括内容存储、迁入迁出内容的流行度、迁入迁出内容的大小等。如此,本发明可保证系统缓存命中率能够随缓存空间增大而保持较为稳定的增长;缓存命中率为整个通信网络中所有智能体在设定数量的时隙内缓存命中数与处理请求数的比值。
(2)本发明中采用离散MADDPG算法获取边缘缓存决策模型,MADDPG算法强大的决策能力能够很好地应对协作缓存的不稳定性,做出最优的缓存决策,从而提高通信网络的缓存命中率,使通信网络处理更多的内容请求。本发明能够在一个时隙内决策缓存多个内容且移除缓存空间中的多个内容,而现有的大部分协作缓存模型在一个时隙仅仅决定一个未命中的内容是否缓存,可见采用本发明的边缘缓存决策模型有着更高缓存效率。另外,为了使智能体能够同时做出缓存内容和移除内容的决策,本发明将MADDPG传统架构的单Actor网络改进为双Actor网络,让一个Actor网络输出需缓存的内容,另一个Actor网络输出需移出缓存空间的内容。
(3)本发明在训练边缘缓存决策模型的过程中,可以通过通信网络的全局状态来训练网络的参数,从而可以很好地解决多智能体训练时环境不稳定的问题,得到最优的缓存策略参数。另外因为智能体能够掌握全局的状态,从而能够了解通信网络的内容冗余情况并通过改进的奖励来控制冗余。该算法在执行时只需智能体的局部状态而无需通信网络的全局状态,那么在实际应用时能够有较快的执行效率。本发明充分考虑了迁入迁出内容对缓存空间的影响,通过设置约束,保证了RSU动作过程中缓存空间的正常工作。
(4)本发明中通过奖励的设置,进一步提高了边缘缓存决策模型训练过程中的强化学习能力,有利于提高模型性能。本发明中,给出了两种奖励规则,但具体实施时,奖励也可根据现有的任意方法进行计算。
(5)本发明还提出了一种基于离散MADDPG的边缘缓存决策方法,采用上述边缘缓存决策模型控制通信网络中各RSU的存储动作,如此不仅在内容传输时进行协作,而且在缓存决策时也能够进行协作,从而在缓存决策时也能够了解通信网络的冗余情况,进而进行缓存冗余控制。
(6)本发明还提出了一种基于离散MADDPG的边缘缓存决策系统,为上述基于离散MADDPG的边缘缓存决策方法的实施提供了载体。
附图说明
图1为系统中基于离散MADDPG的边缘缓存决策模型的获取方法;
图2为基于离散MADDPG的边缘缓存决策模型具体的获取方法流程图;
图3为一种基于离散MADDPG的边缘缓存决策方法流程图;
图4为实施例中基于离散MADDPG的边缘缓存决策模型的收敛对比图;
图5为Zipf参数θ=0.7时各算法缓存命中率对比图;
图6为Zipf参数θ=0.9时各算法缓存命中率对比图;
图7为Zipf参数θ=1.1时各算法缓存命中率对比图;
图8为Zipf参数θ=0.7时各算法请求处理数对比图;
图9为Zipf参数θ=0.9时各算法请求处理数对比图;
图10为Zipf参数θ=1.1时各算法请求处理数对比图;
图11为内容冗余度分布图。
具体实施方式
实施例
本实施例结合一个具体的通信网络对本发明提供的基于离散MADDPG的边缘缓存决策系统的效果进行验证,本实施例中设置相关参数如下表1所示:
表1:实施例参数设置
本实施例中定义一个轮询等于100个时隙,即n e =100n s 。本实施例中以轮询为横坐标以每一个轮询内所有RSU的奖励均值z avg 为纵坐标绘制波形以估算本发明中边缘缓存决策模型的收敛性;
z j,t 为RSUj在时隙t上的奖励。
本实施例中,采用本发明提供的边缘缓存决策模型获得各RSU的动作决策,具体如图2所示。该边缘缓存决策模型的学习过程如图1、图3所示。具体的,本实施例中采用如图3所示方法训练边缘缓存决策模型时,步骤S24中对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新时采用的滑动更新因子如表1所示,即τ=0.01。参照图4,本实施例经过仿真可知,该边缘缓存决策模型在不同Zipf(齐普夫定律)分布下的收敛性不同,具体的:当θ=0.7时,所述模型大概在第30个轮询处收敛;当θ=0.9时,所述模型大概在第50个轮询处收敛;当θ=1.1时,所述模型大概在第30个轮询处收敛。显然,收敛后的奖励值随θ值增大而增大,这是因为当Zipf分布的θ越大时,内容请求越集中、更规律,从而在智能体即RSU做出正确的缓存决策后,有更多的内容请求在下一个时隙命中,由此奖励值会更高。
为了进一步验证本发明的技术效果,以下结合3个对比例对本发明提供的边缘缓存决策模型进行说明。
表2:对比例统计表
系统缓存命中率分析
图5-7展示了表2中4种算法在在采用不同偏斜因子θ的Zipf(齐普夫定律)分布下的系统缓存命中率随智能体(即RSU)缓存空间变化而变化的情况。图5-7中的横坐标表示智能体(即RSU)缓存空间的大小,纵坐标表示缓存命中率,缓存命中率为整个通信网络中所有智能体在100个时隙内缓存命中数与处理请求数的比值。
结合图5-7可知,在θ取任意值时,采用表2中任一算法的系统的缓存命中率均随着智能体缓存空间的增加而升高;且本发明实施例对应的系统的缓存命中率始终是最高的,即本实施例采用离散MADDPG算法构建的边缘缓存决策模型能够使系统处理更多的内容请求。
从图7可以看出,θ为1.1且智能体的缓存空间为400M时,本发明实施例的缓存命中率达到75%,相比DDPG算法即对比例3,其缓存命中率提升了7.1%,相比传统的LRU算法即对比例2,缓存命中率提升了15.4%,这是因为离散MADDPG算法强大的决策能力能够很好地应对协作缓存的不稳定性,做出最优的缓存决策,从而提高系统的缓存命中率。
通过图5-7也可以看出随着θ的增加,本发明实施例与3个对比例的缓存命中率都随之增加,但是当θ为1.1且智能体缓存空间增加到300M时,对比例1和对比例2的缓存命中率难以随着缓存空间增大而显著增大,这是因为智能体缓存空间已经能够缓存大部分内容流行度高的内容,当缓存空间继续增大的话,智能体会缓存请求频次低的内容,从而导致缓存命中率增长不显著。而本发明实施例和对比例3除内容流行度外,还综合考虑了缓存状态、请求内容大小等,因此缓存命中率能够随缓存空间增大而保持较为稳定的增长。而本实施例采用离散MADDPG算法训练的边缘缓冲决策模型相对于对比例3中DDPG算法进一步考虑到了智能体之间的互动,因此本实施例中的系统在对比例3的基础上进一步显著提高了缓存命中率。
系统请求处理能力分析
图8-10展示了4种算法在采用不同偏斜因子θ的Zipf(齐普夫定律)分布下的系统处理的请求数随智能体缓存空间变化而变化的情况。图中的横坐标为智能体缓存空间的大小,纵坐标表示通信网络中所有智能体在一个轮询上处理的内容请求数之和。
通过图8-10可以看出随着参数θ和智能体缓存空间的变化,本发明实施例提出的系统始终比另外3个对比例有着更高的请求处理能力。另外,通过图10可以看出当Zipf分布的θ为1.1且智能体的缓存空间为400M时,本发明实施例中系统处理的请求数达到了4780,相比采用DDPG算法的对比例3提升了3.6%,相比传统的采用LRU算法的对比例2和采用FIFO算法的对比例1分别提升了6%和7%。显然,基于学习的算法相比传统算法有着更高的处理请求的能力,这是因为基于学习的算法能够在内容数量较大且状态不确定时通过训练和奖励反馈机制不断寻找最优的缓存策略,让更多的请求在本地得到满足。而基于离散MADDPG算法的本发明实施例比基于DDPG的对比例3性能更优则是因为离散MADDPG能同时考虑智能体状态和其他智能体动作对环境的影响,从而能够基于整个通信网络的状态做出更优的缓存决策,进一步提升系统处理请求的能力。
缓存冗余度分析
从图11可以看出基于LRU算法的对比例2和基于DDPG算法的对比例3有较多的离群点,这是因为LRU算法的机制会使智能体缓存内容流行度较高的内容,那么大部分内容流行度较低的内容较少有机会被缓存,从而导致内容冗余度较分散。而DDPG算法可能在训练时更多的考虑了内容流行度的特征而导致内容冗余度分散。基于FIFO算法的对比例1的内容冗余度比对比例2-3更集中,但是相比基于离散MADDPG算法的本发明实施例还是更为分散。另外,基于FIFO算法的对比例1的内容冗余度集中分布在0.12左右,而基于离散MADDPG算法的本发明实施例的内容冗余度集中分布在0.2左右,这表明本发明实施例中大部分内容在每个时隙至少会被其中一个智能体所缓存。另外从图中MADDPG算法的离群点可以看出离散MADDPG算法也能够抑制产生较大的内容冗余度,可见离散MADDPG算法在训练时能够了解其他智能体的缓存状态,且利用奖励的反馈机制来辅助训练,从而能够达到控制冗余的效果。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。
Claims (9)
1.一种基于离散MADDPG的边缘缓存决策方法,其特征在于,包括以下步骤:
SA1、获取边缘缓存决策模型和当前时隙各RSU的状态;
所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S j,t ,令RSUj在时隙t时决定缓存下来的内容集合记作RSUj在时隙t时选择从缓存空间中移出的内容集合记作,RSUj在时隙t时的动作决策记作;
其中,F j,t 为RSUj在时隙t时的内容存储状态、R j,t 为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;为RSUj在时隙t时已缓存的内容的流行度集合、为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;为RSUj在时隙t时已缓存的内容的大小、为RSUj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;
RSUj在当前时隙的状态记作S j,T ,,T表示当前时隙,F j,T 为RSUj在当前时隙的内容存储状态、R j,T 为RSUj在当前时隙内处理的内容请求集合、为RSUj在当前时隙已缓存的内容的流行度集合、为RSUj在当前时隙未命中的内容的流行度集合;为RSUj在当前时隙已缓存的内容的大小、为RSUj在当前时隙未命中的内容的大小;
SA2、将各RSU的当前状态输入对应的边缘缓存决策模型,获取各RSU的动作决策,RSUj在当前时隙的动作决策记作表示RSUj在当前时隙决定缓存下来的内容集合,表示RSUj在当前时隙选择从缓存空间中移出的内容集合;
SA3、控制各RSU执行对应的动作决策。
3.如权利要求1所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,所述边缘缓存决策模型通过以下步骤训练获得:
S1、基于神经网络构建基础模型,基础模型包括Online-1策略网络、Online-2策略网络、Online价值网络、Target-1策略网络、Target-2策略网络和Target价值网络;设置经验池用于存储经验样本;
RSUj在时隙t时的状态记作S j,t ,Online-1策略网络根据状态S j,t 生成RSUj决定缓存的内容集合,Online-2策略网络根据S j,t 生成RSUj将要移出缓存空间的内容集合;令表示RSUj在时隙t时的动作决策;
Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A j,t }进行评价;所述轮询包含多个时隙;
将RSUj执行动作决策后的状态记作下一个状态S’ j,t ,Target-1策略网络根据下一个状态S’ j,t 生成RSUj决定缓存的内容集合,arget-2策略网络根据下一个状态S’ j,t 生成RSUj将要移出缓存空间的内容集合,A’ j,t 表示下一个动作决策,;
Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A’ j,t }进行评价;
S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:
S21、初始化基础模型,将n s 个时隙划分为n e 个等长的轮询,每个轮询包含多个时隙;令t=1;
S22、将RSUj在时隙t时的状态S j,t 输入到Online-1策略网络和Online-2策略网络以获取对应的动作决策A j,t ;结合A j,t 和S j,t 计算奖励Z j,t 和下一个状态S’ j,t ,奖励Z j,t 根据设定的奖励规则进行计算,将S j,t 、A j,t 、Z j,t 、S’ j,t 存入经验池中;
S j,t 和S’ j,t 满足以下约束条件:
其中,c i 表示内容i的大小,C表示RSUj的缓存空间大小,T j,t 表示RSUj在时隙t时存储的所有内容的传输时间,表示时隙t内在RSUj中命中的所有内容的总传输时间,表示在RSUj附近的RSU中命中的所有内容的传输时间,在RSUj附近的RSU指的是通信覆盖范围与RSUj通信覆盖范围邻接的RSU,表示未在边缘端命中而由云服务器传输的所有内容的传输时间;其中,
其中,D j,t 表示RSUj在时隙t上传输的内容集合,d为内容集合D j,t 中的任一个内容,c d 表示内容d的大小,v j,t 表示RSU与用户终端之间的无线传输速度,v o 表示RSU之间的传输速率,v r 表示RSU与云服务器之间的传输速率;
其中,ᴪ表示序数;
S23、判断t能否被n e 整除,不能,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;能,则由Online价值网络对最近一个轮询中产生的动作决策集合进行评价并输出评价值Q j,t ,Online-1策略网络和Online-2策略网络根据评价值Q j,t 对网络参数进行梯度更新,然后执行以下步骤S24;
S24、将S’ j,t 输入Target-1策略网络和Target-2策略网络以获取对应的下一个动作决策A’ j,t ;Target价值网络对最近一个轮询中产生的下一个动作决策集合进行评价并输出评价值Q’ j,t ;以作为损失函数值对Online价值网络参数进行梯度更新,然后对Target-1策略网络、Target-2策略网络和Target价值网络的参数进行滑动更新;
S25、判断t是否等于n s ;否,则令t=t+1,S j,t =S j,t+1 并返回步骤S22;是,则将参数固定的Online-1策略网络和Online-2策略网络组合成该RSUj对应的边缘缓存决策模型。
7.如权利要求3所述的基于离散MADDPG的边缘缓存决策方法,其特征在于,基础模型采用马尔科夫博弈模型表示。
8.一种基于离散MADDPG的边缘缓存决策系统,其特征在于,包括存储模块,存储模块中存储有计算机程序和边缘缓存决策模型,所述计算机程序被执行时用于实现如权利要求7所述的基于离散MADDPG的边缘缓存决策方法。
9.如权利要求8所述的基于离散MADDPG的边缘缓存决策系统,其特征在于,还包括处理器,处理器与存储模块连接,处理器用于执行所述计算机程序以实现如权利要求7所述的基于离散MADDPG的边缘缓存决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210586227.3A CN114697394B (zh) | 2022-05-27 | 2022-05-27 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210586227.3A CN114697394B (zh) | 2022-05-27 | 2022-05-27 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114697394A CN114697394A (zh) | 2022-07-01 |
CN114697394B true CN114697394B (zh) | 2022-08-16 |
Family
ID=82145596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210586227.3A Active CN114697394B (zh) | 2022-05-27 | 2022-05-27 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114697394B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939505B (zh) * | 2024-03-22 | 2024-05-24 | 南京邮电大学 | 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
CN111385734A (zh) * | 2020-02-19 | 2020-07-07 | 重庆邮电大学 | 一种车联网内容缓存决策优化方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN113382383A (zh) * | 2021-06-11 | 2021-09-10 | 浙江工业大学 | 一种基于策略梯度的公交车辆计算任务卸载方法 |
CN113726894A (zh) * | 2021-09-01 | 2021-11-30 | 福建师范大学 | 一种基于深度强化学习的多车应用计算卸载方法及终端 |
CN114143346A (zh) * | 2021-11-29 | 2022-03-04 | 广东工业大学 | 一种车联网任务卸载和服务缓存的联合优化方法及系统 |
CN114205782A (zh) * | 2022-02-18 | 2022-03-18 | 中国电子技术标准化研究院 | 基于云边协同的时延最优缓存和路由方法、装置及系统 |
CN114374741A (zh) * | 2022-01-13 | 2022-04-19 | 南昌工程学院 | Mec环境下基于强化学习的动态分组车联网缓存方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190096873A (ko) * | 2019-07-31 | 2019-08-20 | 엘지전자 주식회사 | 자율주행시스템에서 차량과 서버의 연결 설정방법 및 이를 위한 장치 |
US11494649B2 (en) * | 2020-01-31 | 2022-11-08 | At&T Intellectual Property I, L.P. | Radio access network control with deep reinforcement learning |
-
2022
- 2022-05-27 CN CN202210586227.3A patent/CN114697394B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
CN111385734A (zh) * | 2020-02-19 | 2020-07-07 | 重庆邮电大学 | 一种车联网内容缓存决策优化方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN113382383A (zh) * | 2021-06-11 | 2021-09-10 | 浙江工业大学 | 一种基于策略梯度的公交车辆计算任务卸载方法 |
CN113726894A (zh) * | 2021-09-01 | 2021-11-30 | 福建师范大学 | 一种基于深度强化学习的多车应用计算卸载方法及终端 |
CN114143346A (zh) * | 2021-11-29 | 2022-03-04 | 广东工业大学 | 一种车联网任务卸载和服务缓存的联合优化方法及系统 |
CN114374741A (zh) * | 2022-01-13 | 2022-04-19 | 南昌工程学院 | Mec环境下基于强化学习的动态分组车联网缓存方法 |
CN114205782A (zh) * | 2022-02-18 | 2022-03-18 | 中国电子技术标准化研究院 | 基于云边协同的时延最优缓存和路由方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
移动边缘计算中的低能耗任务卸载决策算法;张文杰;《合肥工业大学学报》;20200720;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114697394A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108063961B (zh) | 一种基于强化学习的自适应码率视频传输方法以及系统 | |
CN111092823B (zh) | 一种自适应调节拥塞控制初始窗口的方法和系统 | |
CN109639760B (zh) | 一种基于深度强化学习的d2d网络中的缓存策略方法 | |
CN114697394B (zh) | 基于离散maddpg的边缘缓存决策模型、方法和系统 | |
CN113282786B (zh) | 一种基于深度强化学习的全景视频边缘协作缓存替换方法 | |
CN115809147B (zh) | 多边缘协作缓存调度优化方法、系统及模型训练方法 | |
CN115633380B (zh) | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 | |
CN113469325A (zh) | 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质 | |
CN113687960A (zh) | 一种基于深度强化学习的边缘计算智能缓存方法 | |
CN112511336A (zh) | 一种边缘计算系统中的在线服务放置方法 | |
CN112383485A (zh) | 一种网络拥塞控制方法及装置 | |
CN113012013A (zh) | 一种在车联网中基于深度强化学习的协同边缘缓存方法 | |
CN115344395A (zh) | 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统 | |
CN113132765A (zh) | 码率决策模型训练方法、装置、电子设备及存储介质 | |
CN113114762B (zh) | 一种数据缓存方法及系统 | |
CN112291284A (zh) | 一种内容推送方法、装置和计算机可读存储介质 | |
CN113064907B (zh) | 一种基于深度强化学习的内容更新方法 | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN115361734A (zh) | 基于信息时效性的功率和irs相移联合优化方法及装置 | |
CN115643176A (zh) | 社交车联网去中心化协作缓存方法 | |
CN115208952B (zh) | 一种智慧协同内容缓存方法 | |
CN117811846B (zh) | 基于分布式系统的网络安全检测方法、系统、设备及介质 | |
CN116209015B (zh) | 一种边缘网络缓存调度方法、系统和存储介质 | |
CN117939505B (zh) | 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |