CN113395333B - 基于智能体深度增强学习的多边缘基站联合缓存替换方法 - Google Patents

基于智能体深度增强学习的多边缘基站联合缓存替换方法 Download PDF

Info

Publication number
CN113395333B
CN113395333B CN202110599821.1A CN202110599821A CN113395333B CN 113395333 B CN113395333 B CN 113395333B CN 202110599821 A CN202110599821 A CN 202110599821A CN 113395333 B CN113395333 B CN 113395333B
Authority
CN
China
Prior art keywords
base station
agent
edge
content
requests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110599821.1A
Other languages
English (en)
Other versions
CN113395333A (zh
Inventor
宋彤雨
谈雪彬
胡文昱
董刘杨
任婧
王雄
徐世中
王晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110599821.1A priority Critical patent/CN113395333B/zh
Publication of CN113395333A publication Critical patent/CN113395333A/zh
Application granted granted Critical
Publication of CN113395333B publication Critical patent/CN113395333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法,在边缘缓存系统运行时,通过网络控制器统计所有边缘基站接收到的用户内容请求数量,当用户内容请求达到一定数量后,网络控制器提取这些用户内容请求的流行度特征,并实时检测流行度特征是否发生变化,当流行度特征未发生变化时,则边缘基站使用当前智能体进行缓存替换,当流行度特征发生变化时,则清空历史到达的用户内容请求,并使用LFU替代当前智能体并重新训练智能体决策网络,通过新的智能体进行缓存替换决策。

Description

基于智能体深度增强学习的多边缘基站联合缓存替换方法
技术领域
本发明属于通信技术领域,更为具体地讲,涉及一种基于智能体深度增强学习的多边缘基站联合缓存替换方法。
背景技术
由于移动设备和数据密集型应用的激增,5G及以后的移动通信网络需要以超高速和低延迟交付内容。在该目标驱动下,边缘缓存作为一种能有效减少内容传输延迟和网络拥塞的技术受到了学术界和工业界的广泛关注。
在传统的内容分发网络(Content Delivery Network,CDN)的缓存系统当中,常见的缓存替换算法有最不经常使用(Least Frequently Used,LFU)替换算法、最近最少使用(Least Recently Used,LRU)替换算法和先入先出(First In First Out,FIFO)替换算法等。但是相对于传统的CDN,由于边缘网络中单个小区内服务的用户数量较少,基站收到的内容请求具有更高的不确定性,内容流行度的变化也更快。因此上述基于最近访问时间或基于频率的缓存替换算法性能有限。同时,由于边缘缓存空间有限,且基站每次在进行缓存替换时都会消耗回传网络(backhaul network)的带宽资源,所以边缘网络中的缓存替换问题除了需要考虑命中率也需考虑缓存开销。
在边缘缓存问题当中,由于边缘基站的存储空间有限,因此只能缓存用户所请求内容集合中的一部分。当用户设备向边缘基站发起一次内容请求时,若接受请求的基站中缓存有该用户请求的内容,则直接将内容交付给用户设备;若接受请求的基站中不包含用户请求的内容,则向邻域内的基站发送该内容请求,若邻域内的其它基站缓存有用户请求的内容,则包含请求内容的基站先将内容传输至接受请求的基站,进而交付给用户;若邻域内所有基站都不包含用户请求的内容,则向远端的内容服务器发送请求,边缘基站将内容从远端内容服务器下载后交付给用户。此过程中,所有的内容传输过程都会产生一定的系统开销,并且若边缘基站要缓存从远端内容服务器下载的内容,则会产生额外的缓存开销。如果用户内容请求能够在邻域内被服务(即在接受用户请求的基站或者其邻域内的基站中缓存有被请求的内容)则记为命中,较高的内容请求命中率意味着较低的服务延迟和较高的用户体验质量(Quality of Experience,QoE)。本专利研究的系统目标是为每个边缘基站设计缓存替换策略,使得单位命中率所产生的系统开销最小,即用户内容请求产生的系统开销与命中率的比值尽可能小。此外,该方法还要求能够适应用户请求内容流行度信息变化的场景。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法,在内容流行度时变的边缘网络场景中设计多边缘基站的缓存替换策略,通过各边缘基站的缓存策略相互配合以实现高效的边缘缓存系统的缓存替换。
为实现上述发明目的,本发明一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法,其特征在于,包括以下步骤:
(1)、设边缘缓存系统内包含I个边缘基站,每个边缘基站都部署了初始智能体,对于第i个基站bi,其部署的智能体记为ai,每个智能体都维护一个智能体决策网络;设I个边缘基站在过去一段时间T内接收到的用户内容请求数量为N,每个边缘基站能够缓存的热点内容数量上限为K;设置边缘缓存系统的流行度动态矢量,其长度为L=K·I;
(2)、边缘缓存系统运行时,网络控制器收集并统计I个边缘基站接收到的用户内容请求数量,如果接收到的用户内容请求数量小于N,则等待继续接收用户内容请求数量,否则进入步骤(3);
(3)、网络控制器提取过去N条用户内容请求的流行度特征;
在N个用户内容请求中,统计每种内容被请求的次数,并按照从大到小的方式进行排序,排序完成后,将排序后每种内容被请求的次数作为流行度特征,记为流行度动态矢量;同时对排序后每种内容进行动态编号,其中,若排序后某种内容的序号n小于等于流行度动态矢量的长度,即n≤L,则排在第n位的内容的动态编号记为L-n+1;否则,其动态编号记为0;
(4)、流行度特征变化检测;
(4.1)、网络控制器统计I个边缘基站每接收到W条用户请求时作为触发流行度特征变化检测的标志,设当前为第k次检测;
(4.2)、在第k次检测时,当网络控制器统计I个边缘基站每接收到W条用户内容请求后,提取已接收到的N条用户内容请求在流行度动态矢量中存储的请求次数,然后计算请求次数排序靠前的H种用户内容请求的请求频率向量,记为
Figure BDA0003092343260000031
其中,i=1,2,…,H,fi k表示第k次检测时第i种用户内容请求的请求频率,
Figure BDA0003092343260000032
(4.3)、计算Fk和Fk-1的距离,记为KLk
(4.4)、若KLk大于前m次计算得到的距离平均值的λ倍,λ为常数,则判定内容流行度特征发生了变化,并清空历史到达的用户内容请求,再进入步骤(6),否则进入步骤(5);
(5)、边缘基站进行智能体缓存替换;
边缘缓存系统计未命中的请求次数,当未命中请求达到M次时,记录在此期间内边缘缓存系统所收到的总请求数D(M),同时接收第D(M)个请求的边缘基站的智能体执行缓存替换;
智能体执行缓存替换的具体过程为:
(5.1)、边缘缓存系统中的每个边缘基站bi都向各自智能体决策网络输入本地观察值、智能体编号以及边缘基站上一次决策时决策网络输出的动作;其中,本地观察值具体包括:当前基站缓存区内所有内容的动态编号
Figure BDA0003092343260000033
以及它们在过去N个请求中被请求的次数
Figure BDA0003092343260000034
当前边缘基站的每个邻居基站bj中缓存区内所有内容的动态编号
Figure BDA0003092343260000035
以及它们在过去N个请求中被请求的次数
Figure BDA0003092343260000036
基站缓存替换触发标志R,当R=1时,表示边缘基站需要进行缓存替换决策,当R=0时,表示边缘基站不需要进行缓存替换决策;第D(M)个内容请求g的动态编号sg以及该内容在过去N个请求中被请求的次数cg
(5.2)、各边缘基站向智能体决策网络输入上述信息后,对接收第D(M)个请求的边缘基站进行缓存替换,并根据智能体决策网络的输出结果决定将当前缓存中的哪个内容替换为当前被请求的内容或选择不进行替换,而其它所有边缘基站都不进行缓存替换;
(5.3)、缓存替换结束后,返回步骤(4);
(6)、重新训练智能体决策网络;
(6.1)、当边缘缓存系统检测到流行度特征变化时,使用LFU作为缓存替换算法替代当前智能体;然后进入步骤(6.2);
(6.2)、重新训练智能体决策网络;
(6.2.1)、提取已接收到的N条用户内容请求组成的序列;
(6.2.2)、调用用于训练各边缘基站智能体的仿真器;
(6.2.3)、通过仿真器训练各边缘基站的智能体;
1)、将序列输入至仿真器;
2)、仿真器统计未命中请求次数,当未命中请求达到M次时,仿真器触发缓存替换,记当前触发的时刻为t;
3)、在t时刻,仿真器统计各边缘基站中智能体的本地观察值
Figure BDA0003092343260000041
及全局状态St;其中,全局状态St包括:动态编号从L到1的内容在过去N个用户内容请求中分别被请求的次数{cL,cL-1,…,c1};
4)、在t时刻,每个智能体ai将自身观察
Figure BDA0003092343260000042
与智能体编号i以及上一时刻的动作
Figure BDA0003092343260000043
作为待训练的智能体决策网络的输入,从而输出当前时刻的动作
Figure BDA0003092343260000044
5)、仿真器根据动作
Figure BDA0003092343260000045
进行缓存替换,并计算上一时刻的奖励值rt
6)、保存t时刻获取到的本地观察值、全局状态、所有智能体的动作以及奖励值,若尚未执行完序列则返回步骤2),否则通过多智能体深度增强学习方法进行对每个智能体的决策网络并返回步骤1),直至每个智能体的决策网络趋于稳定;
(6.3)、停止使用LFU作为缓存替换决策算法,然后启用训练好的智能体继续执行缓存替换决策,再返回至步骤(4)。
本发明的发明目的是这样实现的:
本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法,在边缘缓存系统运行时,通过网络控制器统计所有边缘基站接收到的用户内容请求数量,当用户内容请求达到一定数量后,网络控制器提取这些用户内容请求的流行度特征,并实时检测流行度特征是否发生变化,当流行度特征未发生变化时,则边缘基站使用当前智能体进行缓存替换,当流行度特征发生变化时,则清空历史到达的用户内容请求,并使用LFU替代当前智能体并重新训练智能体决策网络,通过新的智能体进行缓存替换决策。
同时,本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法还具有以下有益效果:
(1)、本发明实现了多个边缘基站的联合缓存替换方案,相较于传统的缓存替换算法具有多基站协作的优势。
(2)、本发明实现的缓存替换方法使用深度神经网络进行决策,决策时延短。
(3)、本发明实现的缓存替换方法使用分布式决策,与边缘基站的实际部署情况相适应。
附图说明
图1是多边缘基站联合缓存替换的系统架构图;
图2是本发明基于多智能体深度增强学习的多边缘基站联合缓存替换方法流程图;
图3是多边缘基站联合缓存系统运行的时序图;
图4是边缘基站智能体决策网络输入输出示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
在本实施例中,如图1所示,在边缘缓存系统中,当用户设备向边缘基站发送一次请求时,若接受请求的基站中缓存有该用户请求的内容则直接递交内容至用户设备;若接受请求的基站中不包含用户请求的内容则向其邻域内的其它基站发送该内容请求,若邻域内的其它基站缓存有该用户请求的内容,则将内容传输至接受请求的基站后再递交给用户设备;若接受请求的基站及其邻域内所有基站都没有缓存用户请求的内容,则向远端内容服务器发送请求(远端内容服务器中包含所有内容),接受请求的基站从远端内容服务器下载用户请求的内容,进而递交给用户,同时可以选择将该内容缓存至本地(需要额外开销且如果缓存区已满需要选择已缓存内容进行替换)。在该场景中,直接从接收请求的基站获取内容或从其邻域内的基站获取内容都认为该请求“命中”,需要从远端服务器下载的内容则记为该请求“未命中”;对于某一用户请求q,直接从接收请求的基站获取内容的系统开销可以忽略,从邻居基站获取内容的系统开销记为
Figure BDA0003092343260000061
从远端内容服务器获取内容的系统开销记为
Figure BDA0003092343260000062
将从远端内容服务器获取的内容缓存到边缘基站的系统开销记为
Figure BDA0003092343260000063
本发明的主要研究内容是设计缓存替换策略:在触发缓存替换决策时,根据当前缓存区中内容的流行度特征以及待决策内容的流行度特征决策选择对当前缓存区中的某个内容进行替换或不进行替换。
下面我们对本发明一种基于多智能体深度增强学习的多边缘基站联合缓存替换方法进行详细说明,如图2所示,包括以下步骤:
S1、设边缘缓存系统内包含I=3个边缘基站,每个边缘基站都部署了初始智能体,对于第i个基站bi,其部署的智能体记为ai,每个智能体都维护一个智能体决策网络;设I个边缘基站在过去一段时间T内接收到的用户内容请求数量为N=2000,每个边缘基站能够缓存的热点内容数量上限为K=10;设置边缘缓存系统的流行度动态矢量,其长度为L=K·I=30;
S2、边缘缓存系统运行时,网络控制器收集并统计I个边缘基站接收到的用户内容请求数量,如果接收到的用户内容请求数量小于N,则等待继续接收用户内容请求数量,否则进入步骤S3;
S3、边缘缓存系统的网络控制器提取过去N条用户内容请求的流行度特征;
在N个用户内容请求中,统计每种内容被请求的次数,并按照从大到小的方式进行排序,排序完成后,将排序后每种内容被请求的次数作为流行度特征,记为流行度动态矢量;同时对排序后每种内容进行动态编号,其中,若排序后某种内容的序号n小于等于流行度动态矢量的长度,即n≤L,则排在第n位的内容的动态编号记为L-n+1;否则,其动态编号记为0;
在本实施例中,对于过去2000个内容请求中,最热点的内容记为f1,其动态编号
Figure BDA0003092343260000071
对于请求次数排序为29的内容其动态序号
Figure BDA0003092343260000072
对于请求次数排序为35的内容其动态编号
Figure BDA0003092343260000073
因为L<n。不难发现,越热点的内容在动态内容集合中的序号越大。
S4、流行度特征变化检测;
S4.1、如图3所示,网络控制器统计I个边缘基站每接收到W=100条用户内容请求时作为触发流行度特征变化检测的标志,设当前为第k次检测;
S4.2、在第k次检测时,当网络控制器统计I个边缘基站每接收到W条用户内容请求后,提取已接收到的N条用户内容请求在流行度动态矢量中存储的请求次数,然后计算请求次数排序靠前的H种用户内容请求的请求频率向量,记为
Figure BDA0003092343260000074
其中,i=1,2,…,H,fi k表示第k次检测时第i种用户内容请求的请求频率,
Figure BDA0003092343260000075
S4.3、计算分布间的距离的方法有多种,例如F散度(f-divergence)、KL散度(Kullback-Leibler divergence)等。在本实施例中,使用KL散度计算Fk和Fk-1的距离,记为KLk
S4.4、若KLk大于前m=5次计算得到的KL散度平均值的λ=6倍,则判定内容流行度特征发生了变化,并清空历史到达的用户内容请求,再进入步骤S6,否则进入步骤S5;
S5、边缘基站进行智能体缓存替换;
边缘缓存系统计未命中的请求次数,当未命中请求达到M=15次时,记录在此期间内边缘缓存系统所收到的总请求数D(M),同时接收第D(M)个请求的边缘基站的智能体执行缓存替换;
如图4所示,智能体执行缓存替换的具体过程为:
S5.1、边缘缓存系统中的每个边缘基站bi都向各自智能体决策网络输入本地观察值、智能体编号以及边缘基站上一次决策时决策网络输出的动作;其中,本地观察值具体包括:当前基站缓存区内所有内容的动态编号
Figure BDA0003092343260000081
长度为10;当前基站缓存区内所有内容在过去N个请求中被请求的次数
Figure BDA0003092343260000082
长度为10;当前边缘基站的每个邻居基站bj中缓存区内所有内容的动态编号
Figure BDA0003092343260000083
长度为10×2=20;当前边缘基站的每个邻居基站bj中缓存区内所有内容在过去N个请求中被请求的次数
Figure BDA0003092343260000084
长度为10×2=20;基站缓存替换触发标志R,长度为1,当R=1时,表示边缘基站需要进行缓存替换决策,当R=0时,表示边缘基站不需要进行缓存替换决策;第D(M)个内容请求g的动态编号sg,长度为1;第D(M)个内容请求g在过去N个请求中被请求的次数cg,长度为1;故输入决策网络的本地观察长度为63;智能体编号使用独热编码的方式输入决策网络,长度为3;决策网络输出动作的含义包括:选择当前缓存的10个内容中的某一个与当前被请求的内容进行替换或不进行替换,使用独热编码,因此长度为10+1=11;决策网络的全部输入长度为63+3+11=77;
S5.2、各边缘基站向智能体决策网络输入上述信息后,对接收第D(M)个请求的边缘基站进行缓存替换,并根据智能体决策网络的输出结果决定将当前缓存中的哪个内容替换为当前被请求的内容或选择不进行替换,而其它所有边缘基站都不进行缓存替换;
S5.3、缓存替换结束后,返回步骤S4;
S6、重新训练智能体决策网络;
S6.1、当边缘缓存系统检测到流行度特征变化时,使用LFU作为缓存替换算法替代当前智能体;然后进入步骤S6.2;
S6.2、重新训练智能体决策网络;
S6.2.1、提取已接收到的N条用户内容请求组成的序列;
S6.2.2、调用用于训练各边缘基站智能体的仿真器;
S6.2.3、通过仿真器训练各边缘基站的智能体;
1)、将序列输入至仿真器;
2)、仿真器统计未命中请求次数,当未命中请求达到M次时,仿真器触发缓存替换,记当前触发的时刻为t;
3)、在t时刻,仿真器统计各边缘基站中智能体的本地观察值
Figure BDA0003092343260000091
及全局状态St;其中,全局状态St包括:动态编号从L到1的内容在过去N个用户内容请求中分别被请求的次数{cL,cL-1,…,c1},长度为30;
4)、在t时刻,每个智能体ai将自身观察
Figure BDA0003092343260000092
与智能体编号i以及上一时刻的动作
Figure BDA0003092343260000093
作为待训练的智能体决策网络的输入,从而输出当前时刻的动作
Figure BDA0003092343260000094
5)、仿真器根据动作
Figure BDA0003092343260000095
进行缓存替换,并计算上一时刻的奖励值rt
6)、保存t时刻获取到的本地观察值、全局状态、所有智能体的动作以及奖励值,若尚未执行完序列则返回步骤2),否则通过多智能体深度增强学习方法对每个智能体的决策网络进行更新:选择基于演员-评论家(Actor-Critic)的多智能体增强学习算法反事实多智能体(COMA,Counterfactual Multi-Agent)策略梯度作为训练算法对决策网络进行训练;评论家网络的输入包括:当前时刻其他2个基站中智能体的动作,使用独热编码,长度为11×2=22;当前时刻的全局状态,长度为30;当前时刻智能体的观察,长度为63;智能体的编号,独热编码,长度为3;上一时刻所有智能体的动作,每个智能体分别使用独热编码,长度为11×3=33;由上所述,评论家网络的输入层宽度为151。评论家网络的输出是对于每种动作相对于其他动作的优势,因此输出层宽度为11(动作的数量);此外,为了增强评论家网络的拟合能力,使用了两层宽度为128的全连接隐藏层,层与层之间使用ReLU(RectifiedLinear Unit)激活函数连接,输出层不使用激活函数;决策网络使用了两层宽度为128的全连接层作为隐藏层,层与层之间使用ReLU激活函数连接,输出层使用softmax激活函数;对评论家网络以及智能体决策网络训练时都使用了RMSProp(Root Mean Square Prop)优化器,训练评论家网络时使用的学习率为5×10-4;训练决策网络时使用的学习率是5×10-5;在训练时还引入了目标评论家网络,目标评论家网络在评论家网络更新10次后复制评论家网络的参数;为了防止梯度爆炸,使用了梯度裁剪技术,梯度上限设置为5;此外,为了在训练过程中增加智能体的探索,使用了ε-greedy技术,初始概率设置为0.5,经过4900轮训练后衰减至0.01;更新完成后返回步骤1),直至每个智能体的决策网络趋于稳定;
S6.3、停止使用LFU作为缓存替换决策算法,然后启用训练好的智能体继续执行缓存替换决策,再返回至步骤S4。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于智能体深度增强学习的多边缘基站联合缓存替换方法,其特征在于,包括以下步骤:
(1)、设边缘缓存系统内包含I个边缘基站,每个边缘基站都部署了初始智能体,对于第i个基站bi,其部署的智能体记为ai,每个智能体都维护一个智能体决策网络;设I个边缘基站在过去一段时间T内接收到的用户内容请求数量为N,每个边缘基站能够缓存的热点内容数量上限为K;设置边缘缓存系统的流行度动态矢量,其长度为L=K·I;
(2)、边缘缓存系统运行时,网络控制器收集并统计I个边缘基站接收到的用户内容请求数量,如果接收到的用户内容请求数量小于N,则等待继续接收用户内容请求数量,否则进入步骤(3);
(3)、网络控制器提取过去N条用户内容请求的流行度特征;
在N个用户内容请求中,统计每种内容被请求的次数,并按照从大到小的方式进行排序,排序完成后,将排序后每种内容被请求的次数作为流行度特征,记为流行度动态矢量;同时对排序后每种内容进行动态编号,其中,若排序后某种内容的序号n小于等于流行度动态矢量的长度,即n≤L,则排在第n位的内容的动态编号记为L-n+1;否则,其动态编号记为0;
(4)、流行度特征变化检测;
(4.1)、网络控制器统计I个边缘基站每接收到W条用户请求时作为触发流行度特征变化检测的标志,设当前为第k次检测;
(4.2)、在第k次检测时,当网络控制器统计I个边缘基站每接收到W条用户内容请求后,提取已接收到的N条用户内容请求在流行度动态矢量中存储的请求次数,然后计算请求次数排序靠前的H种用户内容请求的请求频率向量,记为
Figure FDA0003092343250000011
其中,i=1,2,…,H,fi k表示第k次检测时第i种用户内容请求的请求频率,
Figure FDA0003092343250000012
(4.3)、计算Fk和Fk-1的距离,记为KLk
(4.4)、若KLk大于前m次计算得到的距离平均值的λ倍,λ为常数,则判定内容流行度特征发生了变化,并清空历史到达的用户内容请求,再进入步骤(6),否则进入步骤(5);
(5)、边缘基站进行智能体缓存替换;
边缘缓存系统计未命中的请求次数,当未命中请求达到M次时,记录在此期间内边缘缓存系统所收到的总请求数D(M),同时接收第D(M)个请求的边缘基站的智能体执行缓存替换;
智能体执行缓存替换的具体过程为:
(5.1)、边缘缓存系统中的每个边缘基站bi都向各自智能体决策网络输入本地观察值、智能体编号以及边缘基站上一次决策时决策网络输出的动作;其中,本地观察值具体包括:当前基站缓存区内所有内容的动态编号
Figure FDA0003092343250000021
以及它们在过去N个请求中被请求的次数
Figure FDA0003092343250000022
当前边缘基站的每个邻居基站bj中缓存区内所有内容的动态编号
Figure FDA0003092343250000023
以及它们在过去N个请求中被请求的次数
Figure FDA0003092343250000024
基站缓存替换触发标志R,当R=1时,表示边缘基站需要进行缓存替换决策,当R=0时,表示边缘基站不需要进行缓存替换决策;第D(M)个内容请求g的动态编号sg以及该内容在过去N个请求中被请求的次数cg
(5.2)、各边缘基站向智能体决策网络输入上述信息后,对接收第D(M)个请求的边缘基站进行缓存替换,并根据智能体决策网络的输出结果决定将当前缓存中的哪个内容替换为当前被请求的内容或选择不进行替换,而其它所有边缘基站都不进行缓存替换;
(5.3)、缓存替换结束后,返回步骤(4);
(6)、重新训练智能体决策网络;
(6.1)、当边缘缓存系统检测到流行度特征变化时,使用LFU作为缓存替换算法替代当前智能体;然后进入步骤(6.2);
(6.2)、重新训练智能体决策网络;
(6.2.1)、提取已接收到的N条用户内容请求组成的序列;
(6.2.2)、调用用于训练各边缘基站智能体的仿真器;
(6.2.3)、通过仿真器训练各边缘基站的智能体;
1)、将序列输入至仿真器;
2)、仿真器统计未命中请求次数,当未命中请求达到M次时,仿真器触发缓存替换,记当前触发的时刻为t;
3)、在t时刻,仿真器统计各边缘基站中智能体的本地观察值
Figure FDA0003092343250000031
及全局状态St;其中,全局状态St包括:动态编号从L到1的内容在过去N个用户内容请求中分别被请求的次数{cL,cL-1,…,c1};
4)、在t时刻,每个智能体ai将自身观察
Figure FDA0003092343250000036
与智能体编号i以及上一时刻的动作
Figure FDA0003092343250000032
作为待训练的智能体决策网络的输入,从而输出当前时刻的动作
Figure FDA0003092343250000033
5)、仿真器根据动作
Figure FDA0003092343250000034
进行缓存替换,并计算上一时刻的奖励值rt
6)、保存t时刻获取到的本地观察值、全局状态、所有智能体的动作以及奖励值,若尚未执行完序列则返回步骤2),否则通过多智能体深度增强学习方法进行对每个智能体的决策网络并返回步骤1),直至每个智能体的决策网络趋于稳定;
(6.3)、停止使用LFU作为缓存替换决策算法,然后启用训练好的智能体继续执行缓存替换决策,再返回至步骤(4)。
2.根据权利要求1所述的基于智能体深度增强学习的多边缘基站联合缓存替换方法,其特征在于,所述奖励值的计算公式为:
Figure FDA0003092343250000035
CN202110599821.1A 2021-05-31 2021-05-31 基于智能体深度增强学习的多边缘基站联合缓存替换方法 Active CN113395333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599821.1A CN113395333B (zh) 2021-05-31 2021-05-31 基于智能体深度增强学习的多边缘基站联合缓存替换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599821.1A CN113395333B (zh) 2021-05-31 2021-05-31 基于智能体深度增强学习的多边缘基站联合缓存替换方法

Publications (2)

Publication Number Publication Date
CN113395333A CN113395333A (zh) 2021-09-14
CN113395333B true CN113395333B (zh) 2022-03-25

Family

ID=77619629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599821.1A Active CN113395333B (zh) 2021-05-31 2021-05-31 基于智能体深度增强学习的多边缘基站联合缓存替换方法

Country Status (1)

Country Link
CN (1) CN113395333B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714814B (zh) * 2022-05-11 2024-05-07 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法
CN117156008B (zh) * 2023-09-14 2024-03-22 北京宝联之星科技股份有限公司 一种边缘节点的数据缓存方法、系统和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN110290510A (zh) * 2019-05-07 2019-09-27 天津大学 支持d2d通信的分层无线网络下的边缘协作缓存方法
CN110312277A (zh) * 2019-04-08 2019-10-08 天津大学 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN111465057A (zh) * 2020-03-30 2020-07-28 北京邮电大学 一种基于强化学习的边缘缓存方法、装置及电子设备
CN111901392A (zh) * 2020-07-06 2020-11-06 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355043B2 (en) * 2011-09-15 2016-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Cache replacement method and system
US9177072B2 (en) * 2013-03-14 2015-11-03 Facebook, Inc. Social cache
US10469609B2 (en) * 2015-12-31 2019-11-05 Time Warner Cable Enterprises Llc Methods and apparatus for serving content to customer devices based on dynamic content popularity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN110312277A (zh) * 2019-04-08 2019-10-08 天津大学 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN110290510A (zh) * 2019-05-07 2019-09-27 天津大学 支持d2d通信的分层无线网络下的边缘协作缓存方法
CN111465057A (zh) * 2020-03-30 2020-07-28 北京邮电大学 一种基于强化学习的边缘缓存方法、装置及电子设备
CN111901392A (zh) * 2020-07-06 2020-11-06 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning for Cooperative Edge Caching in Future Mobile Networks;Ding Li等;《2019 IEEE Wireless Communications and Networking Conference(WCNC)》;20191031;全文 *
内容中心网络架构及相关技术研究;任婧;《中国博士学位论文全文数据库信息科技辑》;20160315;全文 *
基于强化学习的支持D2D通信的缓存策略研究;张苹苹;《中国优秀硕士学位论文全文数据库信息科技辑》;20210215;全文 *

Also Published As

Publication number Publication date
CN113395333A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113395333B (zh) 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN110581808B (zh) 一种基于深度强化学习的拥塞控制方法及系统
Yu et al. Mobility-aware proactive edge caching for connected vehicles using federated learning
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
US8320916B2 (en) Method and apparatus for pre-fetching data in a mobile network environment using edge data storage
Chen et al. Mobile edge cache strategy based on neural collaborative filtering
CN107592656B (zh) 基于基站聚类的缓存方法
CN105812834B (zh) 基于聚类信息的视频推荐服务器、推荐方法和预缓存方法
CN109831806B (zh) 密集场景下面向用户优先级的基站协同缓存方法
CN110708260A (zh) 数据包传输方法及相关装置
CN113411826B (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN107872478A (zh) 一种内容缓存方法、装置和系统
CN107070802A (zh) 基于pid控制器的无线传感器网络拥塞控制技术
CN113810931A (zh) 一种面向移动边缘计算网络的自适应视频缓存方法
CN113687960A (zh) 一种基于深度强化学习的边缘计算智能缓存方法
CN113672819B (zh) 一种基于推荐感知和协作边缘缓存的内容请求处理系统
CN109672626B (zh) 一种基于排队延迟利用的服务聚合方法
CN105227665B (zh) 一种用于缓存节点的缓存置换方法
CN112788702B (zh) 一种用于卫星物联网移动终端的映射表项缓存更新方法
CN106572168A (zh) 基于内容价值缓存的内容中心网络协同缓存方法及系统
CN116915706B (zh) 数据中心网络拥塞控制方法、装置、设备及存储介质
CN108990111B (zh) 一种内容流行度随时间变化下的基站缓存方法
CN106790638B (zh) 命名数据网络中基于主动缓存的数据传输方法及系统
CN108810139A (zh) 一种基于蒙特卡洛树搜索辅助的无线缓存方法
CN108390936A (zh) 一种基于缓存分布感知的概率缓存算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant