CN111565419B - 一种超密集网络中面向延迟优化的协作式边缘缓存方法 - Google Patents
一种超密集网络中面向延迟优化的协作式边缘缓存方法 Download PDFInfo
- Publication number
- CN111565419B CN111565419B CN202010542169.5A CN202010542169A CN111565419B CN 111565419 B CN111565419 B CN 111565419B CN 202010542169 A CN202010542169 A CN 202010542169A CN 111565419 B CN111565419 B CN 111565419B
- Authority
- CN
- China
- Prior art keywords
- content
- time slot
- cell
- user equipment
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013468 resource allocation Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 108
- 230000006870 function Effects 0.000 claims description 54
- 230000009471 action Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000009916 joint effect Effects 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 108010063499 Sigma Factor Proteins 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002040 relaxant effect Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 abstract description 2
- 229920000468 styrene butadiene styrene block copolymer Polymers 0.000 description 63
- 230000003139 buffering effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5682—Policies or rules for updating, deleting or replacing the stored data
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种超密集网络中面向延迟优化的协作式边缘缓存方法,具体步骤如下:步骤1:设置系统模型的各参数;步骤2:采用基于博弈论的多智能体强化学习算法来为每个SBS做出最优缓存决策,以最大化每个SBS的内容缓存命中率;步骤3:采用改进的分支定界法来为每个SBS做出最优带宽资源分配决策,以最小化所有用户设备的总内容下载延迟。本发明可有效减少超密集网络中所有用户的内容下载延迟,提高内容缓存命中率和频谱资源利用率,且具有良好的鲁棒性和可扩展性,适用于大规模用户密集型的超密集网络。
Description
技术领域
本发明涉及一种超密集网络中面向延迟优化的协作式边缘缓存方法,属于超密集网络的边缘缓存领域。
背景技术
在5G时代,随着智能移动设备和移动应用的普及,移动数据流量呈爆炸性增长。为了满足5G网络高容量、高吞吐量、高用户体验速率、高可靠性、广覆盖等需求,超密集网络(Ultra-Dense Networks,UDN)应运而生。UDN在MBS(Macro Base Station,MBS)覆盖范围内的室内外热点区域(如办公大楼、商场、地铁、机场、隧道内等)密集部署低功率的小型基站(Small Base Stations,SBS),以提高网络容量和空间复用度,同时弥补了MBS无法覆盖的盲区。
然而,UDN中的SBS是通过回程链路连接到核心网,随着SBS数量和用户数量的增加,使得回程数据流量急剧增加,造成回程链路拥塞和更大的服务延迟,从而降低服务质量(Quality of Service,QoS)和用户体验质量(Quality of Experience,QoE)。因此,回程网络问题已经成为限制UDN发展的性能瓶颈。
针对以上问题,边缘缓存技术已经成为一种有前景的解决方案,该技术通过在SBS中缓存流行内容,使得用户可以直接从本地SBS获取请求内容,而无需通过回程链路从远程云服务器中下载内容,从而减轻回程链路和核心网的流量负载,降低内容下载延迟,提升QoS和用户QoE。然而,由于单个SBS的缓存容量有限,边缘缓存的性能可能会受到限制。为了扩大缓存容量和增加缓存多样性,可采用一种协作式边缘缓存方案,即多个SBS以协作的方式执行内容缓存,且彼此共享其缓存的内容,以提高内容缓存命中率,降低内容下载延迟。
现有的协作式内容缓存研究大多需要内容流行度的概率分布(如Zipf分布)和用户偏好模型等先验知识,但事实上,内容流行度具有复杂的时空动态特性,通常是一个非平稳的随机过程,因此难以对内容流行度进行准确预测和建模。此外,现有研究大多基于单智能体强化学习算法,该算法是一种集中式算法,需要一个集中式控制中心来收集所有用户的内容请求信息和所有SBS的内存信息,然而该算法的鲁棒性(即集中式控制中心出现故障会导致系统故障)和可扩展性较差(即收敛时间会随着SBS数量的增加而迅速增长),特别是对于多个SBS的场景,集中式控制中心的位置确定将变得更加复杂,因此不适用于UDN。
发明内容
针对现有技术的不足,本发明提供了一种超密集网络中面向延迟优化的协作式边缘缓存方法,是一种分布式算法。该算法无需内容流行度的概率分布和用户偏好模型等先验知识,而是利用用户的瞬时内容请求来计算内容流行度,从而简化了内容流行度的建模过程。然后,每个SBS根据本地内容流行度信息和其他SBS的缓存决策来做出最优缓存决策,目标是最大化所有SBS的总内容缓存命中率。最后,在确定了每个SBS的最优缓存决策后,每个SBS根据其带宽资源来做出最优资源分配决策,目标是最小化所有用户设备的总内容下载延迟。该算法具有良好的鲁棒性和可扩展性,适用于大规模用户密集型的UDN。
为达到上述目的,本发明的技术方案是这样实现的:
一种超密集网络中面向延迟优化的协作式边缘缓存方法:
步骤1:设置系统模型的各参数;
步骤2:采用基于博弈论的多智能体强化学习(Multi-Agent ReinforcementLearning,MARL)算法来为每个SBS做出最优缓存决策,以最大化每个SBS的内容缓存命中率,包括被本地SBS所命中的缓存命中率和被其他SBS所命中的缓存命中率;
步骤3:采用改进的分支定界法来为每个SBS做出最优带宽资源分配决策,以最小化所有用户设备的总内容下载延迟。该方法将分支定界法和线性下逼近法相结合,适用于决策变量较多的大规模可分离凹整数规划问题。
优选地,所述步骤1的具体步骤如下:
1.1设置网络模型:分为三层,即用户设备层、MEC层和云层,其中,用户设备层包含多个用户设备(User Equipment,UE),每个UE只能连接到一个SBS;MEC层包含M个SBS和一个MBS,MBS覆盖了所有的SBS,每个SBS覆盖多个UE,每个SBS代表一个小区,小区用符号m表示,SBS之间的覆盖范围不相互重叠,每个小区m的SBS上都部署了一个MEC服务器,其存储容量为scm,所有MEC服务器的存储容量构成一个存储容量大小向量sc=[sc1,sc2,...,scM],MEC服务器负责为用户设备提供边缘缓存资源,同时,负责收集每个小区的状态信息,并为每个SBS做出相应的缓存决策和信道资源分配决策,SBS之间通过MBS进行相互通信,且共享其缓存资源,MBS通过核心骨干网连接到云层;云层包括若干个云服务器,具有丰富的计算和缓存资源,用于缓存所有的内容;
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有系统状态参数保持不变,而不同时隙参数不同;
1.3设置内容流行度模型:共有F个内容,每个内容f∈F的大小为zf,且每个内容的大小不同,所有内容的大小构成一个内容大小向量z=[z1,z2,...,zf,...,zF],定义在时隙t每个内容f在小区m内的流行度为在时隙t在小区m内请求内容f的总次数为在时隙t在小区m内所有UE的内容请求总次数为因此小区m内所有内容的流行度构成一个内容流行度向量
1.4设置内容请求模型:共有U个UE发送内容请求,定义在时隙t在小区m内发送内容请求的所有UE的集合为在时隙t在小区m内发送内容请求的UE的数量为假设在时隙t每个UE对每个内容最多请求一次,定义在时隙t在小区m内的每个UE的内容请求向量为其中每个元素表示在时隙t在小区m内的UE u请求内容f,表示在时隙t在小区m内的UE u没有请求内容f,在时隙t在小区m内的所有UE的内容请求向量构成一个内容请求矩阵
1.5设置缓存模型:定义在时隙t每个小区m中的MEC服务器维护一个内容缓存决策向量其中每个元素表示在时隙t将内容f缓存在小区m的MEC服务器上,表示在时隙t不将内容f缓存在小区m的MEC服务器上,且每个MEC服务器中缓存内容的总大小不能超过其存储容量scm;
1.6设置通信模型:采用正交频分复用技术将频带宽度B划分成β个正交子信道,定义在时隙t在小区m内的每个UE u被分配若干个正交子信道每个子信道带宽为定义在时隙t用户设备u与本小区m中的SBS之间的下行SNR值为且
其中,表示在时隙t本小区m中的SBS的发射功率,表示在时隙t本小区m中的SBS与UE u之间的信道增益,且lu,m表示在时隙t本小区m中的SBS与UE u之间的距离,α表示路径损耗因子,σ2表示加性高斯白噪声的方差;定义在时隙t用户设备u与本小区m中的SBS之间的下载速率为且
定义在时隙t用户设备u从本小区m的MEC服务器中获取内容f所需要的下载延迟为且
定义在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f所需要的下载延迟为且
其中θm,n表示每个小区m中的SBS和MBS n之间的数据传输速率,且θm,n是一个常数。
定义在时隙t用户设备u从云服务器c中获取内容f所需要的下载延迟为且
其中θn,c表示MBS n和云服务器c之间的数据传输速率,且θn,c是一个常数,满足θm,n>θn,c。因此,
1.7设置内容交付模型:内容交付的基本过程是,每个UE独立地向本地MEC服务器请求若干个内容,若在本地MEC服务器的缓存区已经缓存了该内容,则直接由本地MEC服务器传输给UE;若在本地MEC服务器未缓存该内容,则可以通过MBS从其他SBS的MEC服务器上获取,再由本地MEC服务器传输给UE;若所有的MEC服务器都未缓存该内容,则通过核心网络从云服务器将内容中继到MBS,再由MBS传输到本地MEC服务器,最后由本地MEC服务器将内容交付给UE;
定义在时隙t用户设备u是否从本小区m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从本小区m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从其他小区-m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从云服务器c中获取内容f为二元变量其中表示在时隙t用户设备u从云服务器c中获取内容f,否则
优选地,所述步骤2中基于博弈论的多智能体强化学习算法的具体步骤如下:
2.1将M个SBS的内容缓存决策问题描述为具有M个智能体的带约束的随机博弈(Constrained Stochastic Game,CSG)问题,该问题可用元组<M,S,A1,...,AM,r1,...,rM,Pr,c1,c2,...,cM>来表示,优化目标是最大化每个智能体的长期累积折扣奖励,其中
2.1.1M表示智能体的个数(即SBS的个数);
2.1.2S表示状态空间,st∈S表示在时隙t所有智能体的状态集合,包括在时隙t所有智能体的内容流行度向量因此
2.1.3A1,...,AM表示M个智能体的联合动作空间,定义表示在时隙t智能体m所选择的动作,即
2.1.4r1,...,rM表示M个智能体的奖励函数,定义在时隙t智能体m的奖励函数为表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,且
其中w1和w2表示权重,满足w1+w2=1且w1>w2,可以令w1=0.8,w2=0.2,表示被本地MEC服务器m所命中的内容命中率,表示被非本地MEC服务器-m所命中的内容命中率。因此,定义在联合策略(π1,π2,...,πM)下智能体m的状态st的值函数为vm(st,π1,π2,...,πM),且
其中,πm表示在状态st下智能体m的策略,即智能体m从状态到动作概率的映射,δ∈[0,1)表示折扣因子,k表示在时隙t之后的未来时隙数量,因此状态值函数vm(st,π1,π2,...,πM)表示智能体m在联合策略(π1,π2,...,πM)下的长期累积折扣奖励的数学期望;
2.1.5Pr表示状态转移函数,即所有智能体从当前状态st下执行联合动作之后,转移到下一状态st+1的概率,且
2.1.6c1,c2,...,cM表示M个智能体的约束,定义在时隙t智能体m的约束为表示在状态st下智能体m执行动作之后必须满足所缓存内容的总大小不超过其存储容量scm,即满足
2.2采用基于博弈论的MARL算法,即Nash Q-learning算法。若对于和均满足
则称为智能体m的纳什均衡策略,其中Πm表示智能体m满足约束的可用策略集合,因此,定义在状态st和联合动作下智能体m的Nash Q函数为且
其中,表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,表示在联合纳什均衡策略下智能体m的状态st+1的状态值函数;
2.3在算法的初始化阶段:令时隙t=0,获取所有智能体的初始状态集合为并且对于和均令
2.4在每个时隙t∈T均执行以下步骤:
2.4.1每个智能体m均根据当前状态st、约束条件以及ε-贪婪策略来选择动作并执行,其中ε-贪婪策略是指智能体m每隔一段时间以较小的概率ε来随机选择动作,其他时间以概率1-ε来选择具有最高Q值的动作;
2.4.2观察所有智能体执行的联合动作所有智能体所获得的即时奖励以及下一时隙的状态st+1;
2.4.3定义联合策略(π1(st+1),...,πM(st+1))为单阶段博弈的纳什均衡策略,并且采用二次规划求出该纳什均衡策略;
2.4.4每个智能体m均根据公式(12)和(13)来更新自身和其他智能体的Q值,即
其中,ζt∈(0,1)表示学习率,并且每个智能体m均采用异步更新的方式来更新自身的Q值,即每个智能体只更新当前状态和动作所对应的Q值,表示智能体m在状态st+1下选择纳什均衡策略(π1(st+1),...,πM(st+1))所获得的奖励;
2.4.5如果t<T,则令t←t+1,并返回2.4.1;否则,算法结束。
优选地,所述步骤3的具体步骤如下:
3.1在确定了每个小区m中MEC服务器的最佳内容缓存决策向量后,将每个SBS的带宽资源分配问题均描述为非线性整数规划问题P,即对于均要求
其中,目标函数和约束函数都可以表示成关于所有决策变量的一元函数求和的形式,即
并且所有在定义域内均为凹函数,因此目标函数在定义域内是一个可分离的凹函数,约束函数在定义域内是一个线性约束,因此该问题是一个可分离的凹整数规划问题;
3.2每个SBS均采用改进的分支定界法来解决上述可分离的凹整数规划问题,该方法的具体流程为:
3.2.1将原问题P进行连续松弛,即去掉整数约束,并对目标函数进行线性下逼近,从而得到原问题P的连续松弛&线性逼近子问题LSP,LSP是一个可分离的线性规划问题;
3.2.2利用KKT条件求解LSP的连续最优解,如果该连续最优解是整数解,则该连续最优解即为原问题P的最优解,否则该连续最优解的目标函数值就是原问题P最优值的一个下界;
3.2.3然后从该连续最优解出发,进行分支,其中每一分支对应一个子问题,然后解决这些子问题的连续松弛问题,直到找到一个可行整数解为止,该可行整数解的目标函数值为原问题P提供了一个上界,而每个子问题的连续最优解的目标函数值为相应子问题提供了一个下界。如果某一分支无可行解、或连续最优解是整数解、或者其下界超过了上界,就可以剪掉这一分支。而对于没有剪掉的分支,则重复分枝、剪枝的过程,直到所有分支都被剪掉为止。如果某一分支有可行整数解,必要的话需要更新上界,以确保上界等于现有的可行整数解的最小目标函数值;
3.2.4算法结束时,当前最好的可行整数解就是原问题P的最优解。
有益效果:本发明提供了一种超密集网络中面向延迟优化的协作式边缘缓存算法,可以有效减少超密集网络中所有用户的内容下载延迟,提高内容缓存命中率和频谱资源利用率,且具有良好的鲁棒性和可扩展性,适用于大规模用户密集型的超密集网络。
附图说明
图1为步骤1.1中采用边缘缓存技术的UDN的网络模型。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种超密集网络中面向延迟优化的协作式边缘缓存方法,具体步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用基于博弈论的多智能体强化学习算法来为每个SBS做出最优缓存决策,以最大化每个SBS的内容缓存命中率,包括被本地SBS所命中的缓存命中率和被其他SBS所命中的缓存命中率;
步骤3:采用改进的分支定界法来为每个SBS做出最优带宽资源分配决策,以最小化所有用户设备的总内容下载延迟。该方法将分支定界法和线性下逼近法相结合,适用于决策变量较多的大规模可分离凹整数规划问题。
优选地,所述步骤1中具体步骤如下:
1.1设置网络模型:分为三层,即用户设备层、MEC层和云层,其中,用户设备层包含多个用户设备(User Equipment,UE),每个UE只能连接到一个SBS;MEC层包含M个SBS和一个MBS,MBS覆盖了所有的SBS,每个SBS覆盖多个UE,每个SBS代表一个小区,小区用符号m表示,SBS之间的覆盖范围不相互重叠,每个小区m的SBS上都部署了一个MEC服务器,其存储容量为scm,所有MEC服务器的存储容量构成一个存储容量大小向量sc=[sc1,sc2,...,scM],MEC服务器负责为用户设备提供边缘缓存资源,同时,负责收集每个小区的状态信息,并为每个SBS做出相应的缓存决策和信道资源分配决策,SBS之间通过MBS进行相互通信,且共享其缓存资源,MBS通过核心骨干网连接到云层;云层包括若干个云服务器,具有丰富的计算和缓存资源,用于缓存所有的内容;
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有系统状态参数保持不变,而不同时隙参数不同;
1.3设置内容流行度模型:共有F个内容,每个内容f∈F的大小为zf,且每个内容的大小不同,所有内容的大小构成一个内容大小向量z=[z1,z2,...,zf,...,zF],定义在时隙t每个内容f在小区m内的流行度为在时隙t在小区m内请求内容f的总次数为在时隙t在小区m内所有UE的内容请求总次数为因此小区m内所有内容的流行度构成一个内容流行度向量
1.4设置内容请求模型:共有U个UE发送内容请求,定义在时隙t在小区m内发送内容请求的所有UE的集合为在时隙t在小区m内发送内容请求的UE的数量为假设在时隙t每个UE对每个内容最多请求一次,定义在时隙t在小区m内的每个UE的内容请求向量为其中每个元素表示在时隙t在小区m内的UE u请求内容f,表示在时隙t在小区m内的UE u没有请求内容f,在时隙t在小区m内的所有UE的内容请求向量构成一个内容请求矩阵
1.5设置缓存模型:定义在时隙t每个小区m中的MEC服务器维护一个内容缓存决策向量其中每个元素表示在时隙t将内容f缓存在小区m的MEC服务器上,表示在时隙t不将内容f缓存在小区m的MEC服务器上,且每个MEC服务器中缓存内容的总大小不能超过其存储容量scm;
1.6设置通信模型:采用正交频分复用技术将频带宽度B划分成β个正交子信道,定义在时隙t在小区m内的每个UE u被分配若干个正交子信道每个子信道带宽为定义在时隙t用户设备u与本小区m中的SBS之间的下行SNR值为且
其中,表示在时隙t本小区m中的SBS的发射功率,表示在时隙t本小区m中的SBS与UE u之间的信道增益,且lu,m表示在时隙t本小区m中的SBS与UE u之间的距离,α表示路径损耗因子,σ2表示加性高斯白噪声的方差;定义在时隙t用户设备u与本小区m中的SBS之间的下载速率为且
定义在时隙t用户设备u从本小区m的MEC服务器中获取内容f所需要的下载延迟为且
定义在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f所需要的下载延迟为且
其中θm,n表示每个小区m中的SBS和MBS n之间的数据传输速率,且θm,n是一个常数。
定义在时隙t用户设备u从云服务器c中获取内容f所需要的下载延迟为且
其中θn,c表示MBS n和云服务器c之间的数据传输速率,且θn,c是一个常数,满足θm,n>θn,c。因此,
1.7设置内容交付模型:内容交付的基本过程是,每个UE独立地向本地MEC服务器请求若干个内容,若在本地MEC服务器的缓存区已经缓存了该内容,则直接由本地MEC服务器传输给UE;若在本地MEC服务器未缓存该内容,则可以通过MBS从其他SBS的MEC服务器上获取,再由本地MEC服务器传输给UE;若所有的MEC服务器都未缓存该内容,则通过核心网络从云服务器将内容中继到MBS,再由MBS传输到本地MEC服务器,最后由本地MEC服务器将内容交付给UE;
定义在时隙t用户设备u是否从本小区m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从本小区m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从其他小区-m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从云服务器c中获取内容f为二元变量其中表示在时隙t用户设备u从云服务器c中获取内容f,否则
优选地,所述步骤2中,具体步骤如下:
2.1将M个SBS的内容缓存决策问题描述为具有M个智能体的带约束的随机博弈(Constrained Stochastic Game,CSG)问题,该问题可用元组<M,S,A1,...,AM,r1,...,rM,Pr,c1,c2,...,cM>来表示,优化目标是最大化每个智能体的长期累积折扣奖励,其中
2.1.1M表示智能体的个数(即SBS的个数);
2.1.2S表示状态空间,st∈S表示在时隙t所有智能体的状态集合,包括在时隙t所有智能体的内容流行度向量因此2.1.3A1,...,AM表示M个智能体的联合动作空间,定义表示在时隙t智能体m所选择的动作,即
2.1.4r1,...,rM表示M个智能体的奖励函数,定义在时隙t智能体m的奖励函数为表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,且
其中w1和w2表示权重,满足w1+w2=1且w1>w2,可以令w1=0.8,w2=0.2,表示被本地MEC服务器m所命中的内容命中率,表示被非本地MEC服务器-m所命中的内容命中率。因此,定义在联合策略(π1,π2,...,πM)下智能体m的状态st的值函数为vm(st,π1,π2,...,πM),且
其中,πm表示在状态st下智能体m的策略,即智能体m从状态到动作概率的映射,δ∈[0,1)表示折扣因子,k表示在时隙t之后的未来时隙数量,因此状态值函数vm(st,π1,π2,...,πM)表示智能体m在联合策略(π1,π2,...,πM)下的长期累积折扣奖励的数学期望;
2.1.5Pr表示状态转移函数,即所有智能体从当前状态st下执行联合动作之后,转移到下一状态st+1的概率,且
2.1.6c1,c2,...,cM表示M个智能体的约束,定义在时隙t智能体m的约束为表示在状态st下智能体m执行动作之后必须满足所缓存内容的总大小不超过其存储容量scm,即满足
2.2采用基于博弈论的MARL算法,即Nash Q-learning算法。若对于和均满足
则称为智能体m的纳什均衡策略,其中Πm表示智能体m满足约束的可用策略集合,因此,定义在状态st和联合动作下智能体m的Nash Q函数为且
其中,表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,表示在联合纳什均衡策略下智能体m的状态st+1的状态值函数;
2.3在算法的初始化阶段:令时隙t=0,获取所有智能体的初始状态集合为并且对于和均令
2.4在每个时隙t∈T均执行以下步骤:
2.4.1每个智能体m均根据当前状态st、约束条件以及ε-贪婪策略来选择动作并执行,其中ε-贪婪策略是指智能体m每隔一段时间以较小的概率ε来随机选择动作,其他时间以概率1-ε来选择具有最高Q值的动作;
2.4.2观察所有智能体执行的联合动作所有智能体所获得的即时奖励以及下一时隙的状态st+1;
2.4.3定义联合策略(π1(st+1),...,πM(st+1))为单阶段博弈的纳什均衡策略,并且采用二次规划求出该纳什均衡策略;
2.4.4每个智能体m均根据公式(12)和(13)来更新自身和其他智能体的Q值,即
其中,ζt∈(0,1)表示学习率,并且每个智能体m均采用异步更新的方式来更新自身的Q值,即每个智能体只更新当前状态和动作所对应的Q值,表示智能体m在状态st+1下选择纳什均衡策略(π1(st+1),...,πM(st+1))所获得的奖励;
2.4.5如果t<T,则令t←t+1,并返回2.4.1;否则,算法结束。
优选地,所述步骤3中,具体步骤如下:
3.1在确定了每个小区m中MEC服务器的最佳内容缓存决策向量后,将每个SBS的带宽资源分配问题均描述为非线性整数规划问题P,即对于均要求
其中,目标函数和约束函数都可以表示成关于所有决策变量的一元函数求和的形式,即
并且所有在定义域内均为凹函数,因此目标函数在定义域内是一个可分离的凹函数,约束函数在定义域内是一个线性约束,因此该问题是一个可分离的凹整数规划问题;
3.2每个SBS均采用改进的分支定界法来解决上述可分离的凹整数规划问题,该方法的具体流程为:
3.2.1将原问题P进行连续松弛,即去掉整数约束,并对目标函数进行线性下逼近,从而得到原问题P的连续松弛&线性逼近子问题LSP,LSP是一个可分离的线性规划问题;
3.2.2利用KKT条件求解LSP的连续最优解,如果该连续最优解是整数解,则该连续最优解即为原问题P的最优解,否则该连续最优解的目标函数值就是原问题P最优值的一个下界;
3.2.3然后从该连续最优解出发,进行分支,其中每一分支对应一个子问题,然后解决这些子问题的连续松弛问题,直到找到一个可行整数解为止,该可行整数解的目标函数值为原问题P提供了一个上界,而每个子问题的连续最优解的目标函数值为相应子问题提供了一个下界。如果某一分支无可行解、或连续最优解是整数解、或者其下界超过了上界,就可以剪掉这一分支。而对于没有剪掉的分支,则重复分枝、剪枝的过程,直到所有分支都被剪掉为止。如果某一分支有可行整数解,必要的话需要更新上界,以确保上界等于现有的可行整数解的最小目标函数值;
3.2.4算法结束时,当前最好的可行整数解就是原问题P的最优解。
本发明中提及的方法均属于本领域技术人员掌握的常规技术手段,故而未加详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (1)
1.一种超密集网络中面向延迟优化的协作式边缘缓存方法,其特征在于,具体步骤如下:
步骤1:设置系统模型的各参数;
1.1设置网络模型:分为三层,即用户设备层、MEC层和云层,其中,用户设备层包含多个用户设备,每个用户设备只能连接到一个小型基站;MEC层包含M个小型基站和一个宏基站,宏基站覆盖了所有的小型基站,每个小型基站覆盖多个用户设备,每个小型基站代表一个小区,小区用符号m表示,小型基站之间的覆盖范围不相互重叠,每个小区m的小型基站上都部署了一个MEC服务器,其存储容量为scm,所有MEC服务器的存储容量构成一个存储容量大小向量sc=[sc1,sc2,...,scM],MEC服务器负责为用户设备提供边缘缓存资源,同时,负责收集每个小型小区的状态信息,并为每个小型基站做出相应的缓存决策和信道资源分配决策,小型基站之间通过宏基站进行相互通信,且共享其缓存资源,宏基站通过核心骨干网连接到云层;云层包括若干个云服务器,具有丰富的计算和缓存资源,用于缓存所有的内容;
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有系统状态参数保持不变,而不同时隙参数不同;
1.3设置内容流行度模型:共有F个内容,每个内容f∈F的大小为zf,且每个内容的大小不同,所有内容的大小构成一个内容大小向量z=[z1,z2,...,zf,...,zF],定义在时隙t每个内容f在小区m内的流行度为在时隙t在小区m内请求内容f的总次数为在时隙t在小区m内所有用户设备的内容请求总次数为因此小区m内所有内容的流行度构成一个内容流行度向量
1.4设置内容请求模型:共有U个用户设备发送内容请求,定义在时隙t在小区m内发送内容请求的所有用户设备的集合为在时隙t在小区m内发送内容请求的用户设备的数量为假设在时隙t每个UE对每个内容最多请求一次,定义在时隙t在小区m内的每个UE的内容请求向量为其中每个元素表示在时隙t在小区m内的用户设备u请求内容f,表示在时隙t在小区m内的用户设备u没有请求内容f,在时隙t在小区m内的所有用户设备的内容请求向量构成一个内容请求矩阵
1.5设置缓存模型:定义在时隙t每个小区m中的MEC服务器维护一个内容缓存决策向量其中每个元素表示在时隙t将内容f缓存在小区m的MEC服务器上,表示在时隙t不将内容f缓存在小区m的MEC服务器上,且每个MEC服务器中缓存内容的总大小不能超过其存储容量scm;
1.6设置通信模型:采用正交频分复用技术将频带宽度B划分成β个正交子信道,定义在时隙t在小区m内的每个用户设备u被分配若干个正交子信道每个子信道带宽为定义在时隙t用户设备u与本小区m中的小型基站之间的下行SNR值为且
其中,表示在时隙t本小区m中的小型基站的发射功率,表示在时隙t本小区m中的小型基站与用户设备u之间的信道增益,且lu,m表示在时隙t本小区m中的小型基站与用户设备u之间的距离,α表示路径损耗因子,σ2表示加性高斯白噪声的方差;定义在时隙t用户设备u与本小区m中的小型基站之间的下载速率为且
定义在时隙t用户设备u从本小区m的MEC服务器中获取内容f所需要的下载延迟为且
定义在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f所需要的下载延迟为且
定义在时隙t用户设备u从云服务器c中获取内容f所需要的下载延迟为且
其中θn,c表示MBS n和云服务器c之间的数据传输速率,且θn,c是一个常数,满足θm,n>θn,c;
因此,
1.7设置内容交付模型:内容交付的基本过程是,每个用户设备独立地向本地MEC服务器请求若干个内容,若在本地MEC服务器的缓存区已经缓存了该内容,则直接由本地MEC服务器传输给用户设备;若在本地MEC服务器未缓存该内容,则可以通过宏基站从其他小型基站的MEC服务器上获取,再由本地MEC服务器传输给用户设备;若所有的MEC服务器都未缓存该内容,则通过核心网络从云服务器将内容中继到宏基站,再由宏基站传输到本地MEC服务器,最后由本地MEC服务器将内容交付给用户设备;
定义在时隙t用户设备u是否从本小区m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从本小区m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从其他小区-m的MEC服务器中获取内容f为二元变量其中表示在时隙t用户设备u从其他小区-m的MEC服务器中获取内容f,否则定义在时隙t用户设备u是否从云服务器c中获取内容f为二元变量其中表示在时隙t用户设备u从云服务器c中获取内容f,否则
步骤2:采用基于博弈论的多智能体强化学习算法来为每个小型基站做出最优缓存决策,以最大化每个小型基站的内容缓存命中率,包括被本地小型基站所命中的缓存命中率和被其他小型基站所命中的缓存命中率;
所述步骤2中基于博弈论的多智能体强化学习算法的具体步骤如下:
2.1将M个小型基站的内容缓存决策问题描述为具有M个智能体的带约束的随机博弈问题,问题用元组<M,S,A1,...,AM,r1,...,rM,Pr,c1,c2,...,cM>来表示,优化目标是最大化每个智能体的长期累积折扣奖励,其中
2.1.1 M表示智能体的个数,即小型基站的个数;
2.1.2 S表示状态空间,st∈S表示在时隙t所有智能体的状态集合,包括在时隙t所有智能体的内容流行度向量因此
2.1.3 A1,...,AM表示M个智能体的联合动作空间,定义表示在时隙t智能体m所选择的动作,即
2.1.4 r1,...,rM表示M个智能体的奖励函数,定义在时隙t智能体m的奖励函数为表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,且
其中w1和w2表示权重,满足w1+w2=1且w1>w2,令w1=0.8,表示被本小区m的MEC服务器所命中的内容命中率,表示被其他小区-m的MEC服务器所命中的内容命中率;定义在联合策略(π1,π2,...,πM)下智能体m的状态st的值函数为vm(st,π1,π2,...,πM),且
其中,πm表示在状态st下智能体m的策略,即智能体m从状态到动作概率的映射,δ∈[0,1)表示折扣因子,此状态值函数vm(st,π1,π2,...,πM)表示智能体m在联合策略(π1,π2,...,πM)下的长期累积折扣奖励的数学期望;
2.1.5 Pr表示状态转移函数,即所有智能体从当前状态st下执行联合动作之后,转移到下一状态st+1的概率,且
2.1.6 c1,c2,...,cM表示M个智能体的约束,定义在时隙t智能体m的约束为表示在状态st下智能体m执行动作之后必须满足所缓存内容的总大小不超过其存储容量scm,即满足
2.2采用基于博弈论的MARL算法,即Nash Q-learning算法;若对于和均满足
则称为智能体m的纳什均衡策略,其中Πm表示智能体m满足约束的可用策略集合,因此,定义在状态st和联合动作下智能体m的Nash Q函数为且
其中,表示在状态st下所有智能体执行联合动作之后智能体m所获得的即时奖励,表示在联合纳什均衡策略下智能体m的状态st+1的状态值函数;
2.3在算法的初始化阶段:令时隙t=0,获取所有智能体的初始状态集合为并且对于和均令
2.4在每个时隙t∈T均执行以下步骤:
2.4.1每个智能体m均根据当前状态st、约束条件以及ε-贪婪策略来选择动作并执行,其中ε-贪婪策略是指智能体m每隔一段时间以较小的概率ε来随机选择动作,其他时间以概率1-ε来选择具有最高Q值的动作;
2.4.2观察所有智能体执行的联合动作所有智能体所获得的即时奖励以及下一时隙的状态st+1;
2.4.3定义联合策略(π1(st+1),...,πM(st+1))为单阶段博弈的纳什均衡策略,并且采用二次规划求出该纳什均衡策略;
2.4.4每个智能体m均根据公式(12)和(13)来更新自身和其他智能体的Q值,即
其中,ζt∈(0,1)表示学习率,并且每个智能体m均采用异步更新的方式来更新自身的Q值,即每个智能体只更新当前状态和动作所对应的Q值,表示智能体m在状态st+1下选择纳什均衡策略(π1(st+1),...,πM(st+1))所获得的奖励;
2.4.5如果t<T,则令t←t+1,并返回2.4.1;否则,算法结束;
步骤3:采用改进的分支定界法来为每个小型基站做出最优带宽资源分配决策,以最小化所有用户设备的总内容下载延迟;所述步骤3中具体步骤如下:
3.1在确定了每个小区m中MEC服务器的最佳内容缓存决策向量后,将每个小型基站的带宽资源分配问题均描述为非线性整数规划问题P,即对于均要求
其中,目标函数和约束函数都可以表示成关于所有决策变量的一元函数求和的形式,即
并且所有在定义域内均为凹函数,因此目标函数在定义域内是一个可分离的凹函数,约束函数在定义域内是一个线性约束,因此该问题是一个可分离的凹整数规划问题;
3.2每个小型基站均采用改进的分支定界法的算法来解决上述可分离的凹整数规划问题,具体流程为:
3.2.1将原问题P进行连续松弛,即去掉整数约束,并对目标函数进行线性下逼近,从而得到原问题P的连续松弛&线性逼近子问题LSP,LSP是一个可分离的线性规划问题;
3.2.2利用KKT条件求解LSP的连续最优解,如果该连续最优解是整数解,则该连续最优解即为原问题P的最优解,否则该连续最优解的目标函数值就是原问题P最优值的一个下界;
3.2.3然后从该连续最优解出发,进行分支,其中每一分支对应一个子问题,然后解决这些子问题的连续松弛问题,直到找到一个可行整数解为止,该可行整数解的目标函数值为原问题P提供了一个上界,而每个子问题的连续最优解的目标函数值为相应子问题提供了一个下界;如果某一分支无可行解、或连续最优解是整数解、或者其下界超过了上界,就可以剪掉这一分支;而对于没有剪掉的分支,则重复分枝、剪枝的过程,直到所有分支都被剪掉为止;如果某一分支有可行整数解,必要的话需要更新上界,以确保上界等于现有的可行整数解的最小目标函数值;
3.2.4改进的分支定界法的算法结束时,当前最好的可行整数解就是原问题P的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542169.5A CN111565419B (zh) | 2020-06-15 | 2020-06-15 | 一种超密集网络中面向延迟优化的协作式边缘缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542169.5A CN111565419B (zh) | 2020-06-15 | 2020-06-15 | 一种超密集网络中面向延迟优化的协作式边缘缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111565419A CN111565419A (zh) | 2020-08-21 |
CN111565419B true CN111565419B (zh) | 2024-03-19 |
Family
ID=72072652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010542169.5A Active CN111565419B (zh) | 2020-06-15 | 2020-06-15 | 一种超密集网络中面向延迟优化的协作式边缘缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111565419B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112218337B (zh) * | 2020-09-04 | 2023-02-28 | 暨南大学 | 一种移动边缘计算中的缓存策略决策方法 |
CN112188560B (zh) * | 2020-09-08 | 2021-11-30 | 北京科技大学 | 一种边缘协同的计算资源分配方法 |
CN112819285B (zh) * | 2021-01-05 | 2023-09-26 | 北京百度网讯科技有限公司 | 航班的匹配处理、训练方法、装置和设备 |
CN112887992B (zh) * | 2021-01-12 | 2022-08-12 | 滨州学院 | 基于接入均衡核和置换率的密集无线网络边缘缓存方法 |
CN113225584B (zh) * | 2021-03-24 | 2022-02-22 | 西安交通大学 | 一种基于编码和缓存的跨层联合的视频传输方法、系统 |
CN113490219B (zh) * | 2021-07-06 | 2022-02-25 | 香港中文大学(深圳) | 一种面向超密集组网的动态资源分配方法 |
CN113573324B (zh) * | 2021-07-06 | 2022-08-12 | 河海大学 | 工业物联网中协作式任务卸载和资源分配的联合优化方法 |
CN115086993A (zh) * | 2022-05-27 | 2022-09-20 | 西北工业大学 | 一种基于异构智能体强化学习的认知缓存优化方法 |
CN115065728B (zh) * | 2022-06-13 | 2023-12-08 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN116112708B (zh) * | 2022-12-30 | 2024-05-07 | 山东大学 | 一种面向自适应流媒体的联合内容存储、码率转换与功率分配资源优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110445825A (zh) * | 2018-05-04 | 2019-11-12 | 东南大学 | 基于强化学习的超密集网络小站编码协作缓存方法 |
CN111163521A (zh) * | 2020-01-16 | 2020-05-15 | 重庆邮电大学 | 移动边缘计算中一种分布式异构环境下的资源分配方法 |
CN111262940A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种车载边缘计算应用缓存方法、装置及系统 |
-
2020
- 2020-06-15 CN CN202010542169.5A patent/CN111565419B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110445825A (zh) * | 2018-05-04 | 2019-11-12 | 东南大学 | 基于强化学习的超密集网络小站编码协作缓存方法 |
CN111163521A (zh) * | 2020-01-16 | 2020-05-15 | 重庆邮电大学 | 移动边缘计算中一种分布式异构环境下的资源分配方法 |
CN111262940A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种车载边缘计算应用缓存方法、装置及系统 |
Non-Patent Citations (3)
Title |
---|
Deep Learning Based Offloading scheme for IoT Networks Towards Green Computing;Pankaj Kumar Kashyap等;《IEEE》;全文 * |
Deep Reinforcement Learning for Power System: An Overview;Zidong Zhang等;《IEEE》;全文 * |
Performance Modelling of Representative Load Sharing Schemes for Clustered Servers in Multi-access Edge Computing;Li Liu等;《IEEE》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111565419A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111565419B (zh) | 一种超密集网络中面向延迟优化的协作式边缘缓存方法 | |
CN111970733B (zh) | 超密集网络中基于深度强化学习的协作式边缘缓存算法 | |
CN114189892B (zh) | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 | |
Pantisano et al. | Cache-aware user association in backhaul-constrained small cell networks | |
Qian et al. | Dynamic cell association for non-orthogonal multiple-access V2S networks | |
Zhong et al. | Deep multi-agent reinforcement learning based cooperative edge caching in wireless networks | |
Huynh et al. | Joint computational offloading and data-content caching in NOMA-MEC networks | |
CN110769514B (zh) | 一种异构蜂窝网络d2d通信资源分配方法及系统 | |
CN114885426B (zh) | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 | |
CN112689296B (zh) | 一种异构IoT网络中的边缘计算与缓存方法及系统 | |
Shang et al. | Computation offloading and resource allocation in NOMA–MEC: A deep reinforcement learning approach | |
Zhao et al. | Task proactive caching based computation offloading and resource allocation in mobile-edge computing systems | |
CN111800812A (zh) | 一种基于非正交多址接入的移动边缘计算用户接入方案 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN116582860A (zh) | 一种基于信息年龄约束的链路资源分配方法 | |
CN115173922A (zh) | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 | |
Assila et al. | A many-to-one matching game approach to achieve low-latency exploiting fogs and caching | |
CN117412391A (zh) | 一种基于增强型双深度q网络的车联网无线资源分配方法 | |
CN111556511A (zh) | 一种基于智能边缘缓存的部分机会性干扰对齐方法 | |
Labana et al. | Joint user association and resource allocation in CoMP-enabled heterogeneous CRAN | |
Zhu et al. | Multi-connection based scalable video streaming in udns: A multi-agent multi-armed bandit approach | |
CN106304307B (zh) | 一种异构网络融合下的资源分配方法 | |
Qureshi et al. | Distributed self optimization techniques for heterogeneous network environments using active antenna tilt systems | |
Zhang et al. | Energy efficient resource allocation in millimeter-wave-based fog radio access networks | |
Ke et al. | Task offloading, caching and matching in ultra-dense relay networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |