CN111314862A - 雾无线接入网中深度强化学习下带有推荐的缓存方法 - Google Patents
雾无线接入网中深度强化学习下带有推荐的缓存方法 Download PDFInfo
- Publication number
- CN111314862A CN111314862A CN202010102408.5A CN202010102408A CN111314862A CN 111314862 A CN111314862 A CN 111314862A CN 202010102408 A CN202010102408 A CN 202010102408A CN 111314862 A CN111314862 A CN 111314862A
- Authority
- CN
- China
- Prior art keywords
- user
- time slot
- file
- fog
- access point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/06—Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种雾无线接入网中深度强化学习下带有推荐的缓存方法,包括:在当前时隙开始时,雾接入点以广播的形式向其覆盖范围内的所有用户进行内容推荐,在当前时隙内,根据所提出的用户请求模型对当前雾接入点覆盖范围内的所有用户的文件请求进行建模;在当前时隙结束时,采用贪婪算法计算得到缓存动作向量,并对应得到下一个系统状态,将当前时隙的系统状态、缓存动作向量、下一个系统状态、奖励函数记录为一个经验元组,并将该经验元组存储在经验重放区;随机抽取经验重放区中的一组经验元组对动作值函数相关神经网络进行训练;判断是否达到最终时隙,若是,则结束进程,否则进入下一个时隙。
Description
技术领域
本发明属于移动通信系统中的边缘缓存技术领域,尤其涉及一种雾无线接入网中深度强化学习下带有推荐的缓存方法。
背景技术
智能设备和移动应用服务的快速发展给无线网络带来了巨大的流量压力。雾无线接入网通过将受欢迎的文件放置在离用户较近的位置,可以有效地提高无线网络的性能,因此越来越受到研究人员和工程技术人员的关注。在雾无线接入网中,雾无线接入点是配备有限缓存和计算资源的边缘设备。由于波动的用户请求和有限的存储限制,每个雾无线接入点需要确定以什么方式在什么时间缓存什么内容,以获得更高的缓存效率。
现有的一些缓存方案,假设内容的受欢迎程度是预先知道的,这是不现实的。而考虑到用户请求受内容推荐的影响,用户请求的不确定性和预测的难度均会有所下降,且如果能使雾接入点持续缓存热点内容,从而实现逼近理想缓存策略的缓存命中率,提高净利润,从而最大程度降低回传负载和通信时延。
发明内容
本发明的目的:本发明针对现有技术存在的问题,提供一种雾无线接入网中深度强化学习下带有推荐的缓存方法,本发明动态地确定雾无线接入网中的雾接入点的缓存决策,从而使雾接入点的长期净利润最大化,且缓存命中率高。
技术方案:一种雾无线接入网中深度强化学习下带有推荐的缓存方法,包括以下步骤:
步骤1:在当前时隙开始时,雾接入点以广播的形式向其覆盖范围内的所有用户进行内容推荐,推荐内容为雾接入点中当前所有缓存文件所对应的摘要信息;
步骤2:在当前时隙内,利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量进行建模;每一个用户在当前时隙中尝试进行文件请求,其每一个请求的产生过程可分为两种情况:用户冲动性请求情况和基于用户偏好矢量的用户请求情况,基于这两种情况,对当前时隙内的每一个用户的文件请求进行建模,得到时隙t内的所有用户的文件请求集合其中,且reqt,u=<ft,n,u,tu,n>,其中reqt,u为第u个用户在时隙t中的请求集合,Nt,u为用户u在时隙t内的文件请求数目,满足Nt,u∈[0,Nmax],Nmax为时隙t内每个用户的最大的文件请求数目,ft,n,u为被请求的文件,tu,n为具体的文件请求发生的时间;
步骤3:在当前时隙结束时,在深度强化学习框架下,采用贪婪算法计算得到缓存动作向量,所述深度强化学习框架包括动作值函数相关神经网络Q(st,at;θ),其中,st为系统状态,at为缓存动作向量,参数θ;根据计算得到的缓存动作向量和当前时隙缓存命中情况对应得到下一个系统状态,所述系统状态为雾接入点中当前缓存的文件的索引集合;所述索引为被缓存文件在云服务器上的文件集合中的编号,雾接入点中的本地缓存文件根据得到的下一个系统状态进行相应的更新操作;
步骤4:根据当前时隙中缓存命中情况和请求文件传输成本得到奖励函数;
步骤5:将当前时隙的系统状态、缓存动作向量、下一个系统状态、奖励函数记录为一个经验元组,并将该经验元组存储在经验重放区;
步骤6:以步骤2得到的用户请求集合作为深度强化学习框架中与雾接入点在t时隙进行交互的外部环境,随机抽取经验重放区中的一组经验元组对动作值函数相关神经网络进行训练并更新该动作值函数相关神经网络的相关参数;
步骤7:判断是否达到最终时隙,若是,则雾接入点内的当前缓存文件为最终的缓存结果,否则进入下一个时隙,并执行步骤1。
进一步的,在执行步骤1之前,还包括初始化过程:
初始化云服务器上的文件集合C={1,2,…c,…,C},从文件集合C中抽取F个文件作为雾接入点的原始本地缓存,将F个文件按照文件序号顺序降序进行排列,抽取的F个文件的有序的索引集合作为系统初始状态s0;
初始化用户偏好候选集P={p1,p2,…,pg,…,pG},其中pg=[pg,1,pg,2,…,pg,C]T为一个初始用户偏好矢量,满足Zipf分布,每个用户偏好矢量中包含C个偏好值,对应文件集合C中的C个文件;
初始化深度强化学习框架,包括初始化动作值函数相关神经网络Q(st,at;θ)对应参数θ,其中,st为系统状态,at为缓存动作向量。
进一步的,所述步骤2具体包括以下子步骤:
S210:利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量pt,u进行建模;
当用户按照当前的用户偏好矢量进行文件请求时,从文件集合C中抽取一个待请求文件,通过伯努利分布对请求过程进行建模,以确定所选文件是否被真正请求,如下面公式(1)所示:
式中,为被选择的文件ft,n,u所对应的用户偏好值,Nt,u为用户u在时隙t内的文件请求数目,其满足Nt,u∈[0,Nmax],被选择的文件有的概率被真正请求,请求数目加1;反之,有的概率,该被选择文件没有被真正请求,请求数目不变;
进一步的,所述S210的具体操作如下:
S211:根据用户运动模式,对时隙t内雾接入点覆盖范围内的所有用户进行分类得到在时隙t内新到达的新用户和在时隙t之前便已存在的老用户,新用户记为老用户记为Ut={1,2,…,u,…,Ut}为时隙t内雾接入点覆盖范围内的所有用户;每个新用户的初始用户偏好矢量是从用户偏好候选集P={p1,p2,…,pg,…,pG}中随机抽取并进行适量修改后得到;每个老用户在当前时隙的用户偏好矢量继承上一时隙的用户偏好矢量;
S212:根据雾接入点在时隙t内的推荐内容对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新:
pt,u为第t时隙内第u个用户的用户偏好矢量,rect=[rect,1,rect,2,…,rect,c,…,rect,C]T为当前雾接入点的内容推荐向量,若第c个文件被推荐,则rect,c=β,β≥1,否则rect,c=1,Φ()为归一化函数;
S213:根据每个用户的行为对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新,所述用户的行为为用户在当前文件请求之前的所有文件请求状况。
进一步的,所述S213具体操作如下:
在时隙t中,对于第u个用户的第n个请求reqt,u,n=<ft,u,n,tu,n>,在请求完成后,采用式(3)将第u个用户的用户偏好矢量pt,u设置为一个极小值μ,并进行用户偏好矢量的归一化:
进一步的,在所述步骤3中,根据下式得到时隙t内的缓存动作向量:
式中,at为缓存动作向量。
进一步的,所述的根据计算得到的缓存动作向量和当前时隙缓存命中情况对应得到下一个系统状态的具体步骤包括:
首先,根据时隙t内所有用户的请求,对雾接入点中当前所缓存的文件的被请求次数进行累加更新并将当前所缓存的文件按照更新后的被请求次数进行降序排列。
之后,所述当前时隙缓存命中情况分为当前时隙内所有用户的文件请求都能从当前雾接入点直接获得和存在无法从雾接入点中获得的被请求文件,定义判决变量m(t),当存在无法从雾接入点中获得的被请求文件时,判决变量m(t)=1,且将该被请求文件填充至集合M中;当当前时隙内所有用户的文件请求都能从当前雾接入点直接获得时,判决变量m(t)=0,且集合在每个时隙开始时,需对集合M进行清空;
所述缓存动作向量at和判决变量m(t)共同决定下一个系统状态:
若at=0,则下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引;
若at=1且m(t)=0,则下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引;
若at=1且m(t)=1,则从集合M中随机抽取一个文件来替换当前雾接入点缓存空间中位于末尾处的文件,新更新的文件的被请求次数默认为0,取降序排列和替换操作后的所有缓存文件的索引为下一个系统状态。
进一步的,所述步骤4中的奖励函数表示时隙t内雾接入点所能获得的净利润,表示为:
其中,rt为奖励函数,θt()用以判断被请求文件ft,u,n是否在时隙t内被缓存在雾接入点中,若被缓存在雾接入点中,则θt(ft,u,n)=1,否则θt(ft,u,n)=0,s表示用户直接从邻近雾接入点中获取被请求文件ft,u,n的传输成本,b表示从云服务器中获取被请求文件ft,u,n的传输成本,b-s表示雾接入点从云服务器中进行一个文件的更新所消耗的传输成本,η表示用户进行一次请求所要花费的费用。
进一步的,所述步骤6具体包括以下步骤:
随机抽取经验重放区中的一组经验元组[sj,aj,rj,s′j]T对动作值函数相关神经网络进行训练:
式中,γ为折扣因子,第j时隙的系统状态sj、动作向量aj、下一系统状态sj+1、奖励函数rj;
执行一个梯度下降的步骤(yj-Q(sj,aj;θ))2更新参数θ。
有益效果:本发明具有以下优点:
1、内容推荐可以帮助用户找到他们感兴趣的文件,从而增加用户请求的数量,进而增加原有缓存方案的效率;
2、过度追求高缓存命中率可能导致冗余缓存更新,雾接入点长期净利润最大化的优化目标更为符合实际需要;
3、将雾无线接入网中的动态缓存布置问题建立在深度强化学习框架下,准确地描述用户请求与雾接入点缓存状态的实时情况,进而使得雾接入点在每一时刻均能够做出最优决策,从而能够更好地适应用户波动的需求。
附图说明
图1是本发明的流程示意图;
图2是本发明与传统边缘缓存策略对每个用户请求的平均奖励(净利润)进行对比的仿真结果图。
具体实施方式
现结合附图和实施例进一步阐述本发明的技术方案。
本发明所述的一种雾无线接入网中深度强化学习下带有推荐的缓存方法,包括如下步骤:S0:初始化云服务器上的文件集合C={1,2,…c,…,C},并假定这些文件具有相同的大小,从上述文件集合中抽取F个文件作为雾接入点的原始本地缓存,此时,由于未与用户请求集合进行交互,所有缓存文件的被请求次数应该都是0,故将F个文件按照序号顺序降序进行排列,抽取的F个文件的有序的索引集合作为系统初始状态s0;
S1:初始化用户偏好候选集P={p1,p2,…,pg,…,pG},其中pg=[pg,1,pg,2,…,pg,C]T满足Zipf分布,为一个初始用户偏好矢量,该矢量中包含C个偏好值,对应文件集合C中的C个文件,每个偏好值都是一个概率,相加之和为1,即用户偏好矢量各项累加之和为1,这也是后面修改用户偏好矢量后,要进行归一化操作的原因。
S2:初始化深度强化学习框架;在一些实施例中深度强化学习框架采用双层深度Q网络,其包括两个结构完全相同的神经网络:动作值函数相关神经网络Q(st,at;θ)和目标动作值函数相关神经网络在使用前,对动作值函数相关神经网络Q(st,at;θ)和目标动作值函数相关神经网络进行参数θ和θ-的初始化,其中,st为系统状态,at为缓存动作向量,该系统状态具体为当前雾接入点中缓存的文件的索引集合;
S3:在内容推荐和缓存方法之间建立一种一对一的联系,这种一一对应关系避免了联合优化带来的巨大训练复杂度,缓存方法优化结束,则相应的内容推荐方案也优化结束,在时隙t开始时,雾接入点以广播的形式向其覆盖范围内的所有用户进行内容推荐,推荐内容即雾接入点中当前所有缓存文件所对应的摘要信息,该摘要信息包括标题或者缩略图,当缓存文件更新后,推荐内容也进行了相应的更新;
S4:在当前时隙内,首先利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量进行建模,每个用户偏好矢量中包含C个偏好值,对应文件集合C中的C个文件,每个偏好值都是一个概率,相加之和为1,且每个用户的用户偏好矢量都是在不断变化的,不断受到推荐内容、用户行为、用户移动模式的影响;用户的行为指的是每个用户之前的所有文件请求状况;
之后对当前时隙内的每一个用户的文件请求(可能是多个,也可能一个都没有)进行建模,其中,对于每一个用户,若其在当前时隙中尝试进行文件请求,其每一个请求的产生过程可分为两种情况:一、用户冲动性请求,用于刻画现实生活中的一些冲动性或者由于外界命令而产生的文件请求行为,这些往往是不符合用户偏好矢量的,其发生的概率,即用户冲动请求概率,也较低:此时用户随机请求文件集合C中的一个文件,即此时一定有一个文件被请求;二、基于用户偏好矢量的用户请求,发生概率为:1-用户冲动请求概率,这种请求的发生过程分为两步:首先进行请求文件的选择,之后再决定是否要请求该被选择的文件,这种情形下,不一定会有一个文件被请求;比如,用户在当前时隙内共先后请求了2个文件,其中,第一个是基于用户偏好矢量的请求,请求完成之后,立刻作为用户行为修改了当前的用户偏好矢量,第二个是冲动性请求,文件请求完成后也需要立刻修改当前的用户偏好矢量,上述修改均对其他用户的偏好矢量没有影响;在这其中,或许该用户还试图进行其他的基于用户偏好矢量的文件请求(一个或多个),但是都只进行了文件的选择,最终,被选择的文件并没有被真正请求,这种情况就不会对当前的用户偏好矢量造成任何影响。
在对当前时隙内的每一个用户的文件请求进行建模后,可得到时隙t内的所有用户的文件请求集合其中,且reqt,u=<ft,n,u,tu,n>,其中reqt,u为第u个用户在时隙t中的请求集合,Nt,u为用户u在时隙t内的文件请求数目,其满足Nt,u∈[0,Nmax],考虑到用户对于文件的请求及使用均需要时间,Nmax为时隙t内每个用户的最大的文件请求数目,当前时隙中,该用户请求的文件数目达到最大的文件请求数目Nmax时,在该时隙内,该用户将不再进行任何文件请求,ft,n,u为被请求的文件,tu,n为具体的文件请求发生的时间,用户请求集合即为深度强化学习中与雾接入点在t时隙进行交互的外部环境;
在S4中,利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量进行建模,具体过程如下:
根据用户移动模式,对时隙t内雾接入点覆盖范围内的所有用户进行分类:表示时隙t内新到达用户的数量,表示在时隙t之前便已在当前范围的用户数量;每个新用户的初始用户偏好矢量是从用户偏好候选集P={p1,p2,…,pg,…,pG}中随机抽取并进行适量修改后得到,适量修改包括随机交换一些项的顺序,其中交换的项的个数也是随机的;考虑到现实的用户偏好之间具有相似性和特异性。因此,首先将用户偏好矢量分为G个大类,即对应G个用户偏好候选矢量,对于新用户,其每个用户偏好矢量从中进行随机抽取;之后,考虑到用户偏好的特异性,对抽取到的用户偏好矢量再进行适量修改,这比直接根据Zip分布生成每个新用户的偏好矢量要更符合实际,运算量也更小;每个老用户在当前时隙的用户偏好矢量继承上一时隙的用户偏好矢量,基于用户移动模式,考虑到内容推荐的影响可能会有延迟,且为了避免后续时隙内发生对之前已请求文件的重复性请求,对于老用户,保留他们的所有偏好修改,即每个老用户在当前时隙的用户偏好矢量继承上一时隙的用户偏好矢量,直到他们离开当前雾接入点覆盖范围;
采用式(2)根据雾接入点在时隙t内的推荐内容对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新:
pt,u为第t时隙内第u个用户的用户偏好矢量,rect=[rect,1,rect,2,…,rect,c,…,rect,C]T为当前雾接入点的内容推荐向量,若第c个文件被推荐,则rect,c=β,β≥1,否则rect,c=1,例如,若C=7,F=3,时隙t内,当前雾接入点中缓存文件对应的索引号为6、2、5(索引号为文件在文件集合C中的编号,从0开始,0~6,而此时的顺序为请求次数降序排序),则文件集合C中的索引号为6、2、5的三个文件的标题或者缩略图作为推荐内容以广播的形式被推荐给当前雾接入点覆盖范围内的所有用户,则此时的内容推荐向量为[1,1,β,1,1,β,β]T,上述向量可以非常直观的标示出被推荐文件在整个文件集合C中的位置,在与用户偏好矢量pt,u进行哈达玛积计算后,可以使得用户偏好矢量pt,u在被推荐文件位置的偏好值变为原有偏好值乘以推荐系数β,而其余的文件所对应的偏好值不变,Φ()为归一化函数,用以保证经过修改后的用户偏好值相加之后仍然为1,这种方式使得推荐对偏好值的影响,不仅仅与推荐系数β有关,还与被推荐文件原有的偏好值呈正比,即推荐受欢迎的文件可以取得更好的推荐效果。
根据每个用户的行为对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新,主要是为了避免用户对于偏好值较高文件的重复性请求,在现实生活中,用户很少对同一个文件发出重复请求:在时隙t中,对于第u个用户的第n个请求reqt,u,n=<ft,u,n,tu,n>,在请求完成后,将被请求文件ft,n,u的偏好值设置为一个极小值μ,即并将修改后的用户偏好矢量pt,u进行归一化,以确保其所有项的和仍然为1。此外,用户请求文件的顺序(文件请求发生的时间tu,n先后)也会影响上述偏好矢量的修改,即reqt,u,n造成的偏好矢量修改(置μ和归一化过程)必须在reqt,u,n-1造成的偏好矢量修改之后,其可以表示为一个函数An:
An(An-1,reqt,u,n,μ)→pt,u
其中,Nt,u为用户u在时隙t内的文件请求数目,且每次修改应在文件请求后立即完成,否则,用户可能重复请求相同的文件。
公式(3)是一个抽象的函数,用来方便指代并说明功能,其实现的功能即是将请求文件对应的偏好值设置为一个极小值μ,并进行用户偏好矢量的归一化,公式中迭代的形式表示,第n个请求对于用户偏好矢量pt,u的修改(请求文件对应的偏好值置μ,整体用户偏好矢量pt,u归一化)应该在前面n-1次请求的修改之后进行。且文件请求过程一旦完成,必须要在前面已经有的请求导致的用户偏好矢量的修改的基础上,立刻进行用户偏好矢量pt,u的相应修改(请求文件对应的偏好值置μ,整体用户偏好矢量pt,u归一化)。
S5:对用户在单个时隙内的请求数量进行限制,即对于所有用户的请求集合应满足:且有reqt,u=<ft,n,u,tu,n>,其中reqt,u为第u个用户在时隙t中的请求集合,ft,n,u为被请求的文件,tu,n为具体的请求时间;
时隙t内,当第u个用户尝试进行第n次文件请求时,其产生过程可分为两类:有的概率该用户直接从文件集合C中随机请求一个文件,即用户冲动性请求一定会导致一个文件被请求,用于刻画现实生活中的一些冲动性或者由于外界命令而产生的文件请求行为,其往往是不符合用户当前的偏好矢量的,其发生的概率即用户冲动请求概率较低,但当其发生时,用户有很大概率必须去请求上述文件,比如上级对下级的指令,下级必须要去请求被要求请求的文件;有的概率用户按照当前的用户偏好矢量进行文件请求,在这种情况下,文件请求可分为两步:(a)从文件集合C中抽取一个待请求文件,每一个文件被选中的概率与该用户当前的用户偏好矢量中该文件所对应的偏好值成正比,但并不是说文件对应的偏好值大就一定可以被选中,偏好值大只是说明其被选中的概率相应较大;(b)通过伯努利分布对请求过程进行建模,以确定所选文件是否被真正请求,如下面公式(1)所示:
式中,为被选择的文件ft,n,u所对应的用户偏好值(为了描述的方便,这里ft,n,u也用来表示被选择的文件),Nt,u为用户u在时隙t内的文件请求数目,其满足Nt,u∈[0,Nmax];如公式(1)所示,该被选择的文件有的概率被真正请求,此时,请求数目加1;反之,有的概率,该被选择文件没有被真正请求,则该用户在时隙t内的请求数目不变。综上,在这种情形下,不一定会有一个文件被请求,但是,被抽取的文件所对应的偏好值越高,其被真正请求的概率也就越高。这也是冲动性请求不能并入(b)中的一个原因,冲动性请求的文件所对应的偏好值一般不高,若冲动性只体现在文件抽取上,其在(b)中被真正请求的概率就会极低。
无论上面哪种文件请求方式(冲动型,基于偏好矢量型),一旦在当前时隙中,该用户请求的文件数目达到最大的文件请求数目Nmax,时,在该时隙内,该用户将不再进行任何文件请求。
因为没有现成的涉及内容推荐的用户请求数据集,而强化学习框架需要有一个时变的用户请求集合作为外部环境与充当智能体的雾接入点进行交互,以优化缓存方法。上述用户请求模型所产生的时变的用户请求即充当了强化学习的外部环境,若此时有真实的用户请求数据集合,也可以随时引入训练过程中,成为新的外部环境,或者外部环境的一部分。
但是需要注意,对于后续的缓存方法优化,此用户请求模型的任何知识都是未知的,该模型只是用于产生用户请求集合,以充当外部环境与雾接入点进行交互。
S7:根据时隙t内的所有用户请求,对于雾接入点中当前所缓存的文件的请求次数进行记录,即在之前时隙的请求次数的基础上进行累加,并将当前所缓存的文件按照更新后的被请求次数进行降序排列;这里的降序排序,一是为了系统状态st的唯一性,雾接入点中的缓存文件顺序也就是时隙t内,索引的排序,即系统状态st,对其排列顺序进行规定之后,可以保证系统状态st的唯一性,若不进行排序,系统状态st可能会有多种排列组合方式。二、这种方式可以使得雾接入点中访问次数多的文件在前,这样后面雾接入点中文件更新时,可以直接替换掉位于最后的访问次数较少的文件。
S8:在时隙t结束时,根据贪婪选择算法以及动作值函数相关神经网络Q(st,at;θ)得出缓存动作向量at,并由当前的缓存命中状态和缓存动作向量得到下一个系统状态st+1;具体包括:
根据贪婪算法获得相应的动作向量:
式中,at为缓存动作向量。
时隙t内,当用户请求的文件未在雾接入点中缓存时,用户必须通过云服务器来获得需要的文件,这部分文件构成集合M,集合M也是一个时变的集合,在每个时隙开始时进行清空,然后根据当前时隙中的文件请求情况来决定是否进行文件的填充。判断时隙t内所有用户的文件请求是否都能从当前雾接入点直接获得,定义判决变量m(t),如果m(t)=1,一些被请求的文件(其可能来自不同的用户)不能从雾接入点中获得,则将这些文件填充至集合M中,反之,m(t)=0,且
由at和m(t)共同决定下一个系统状态:at=0时,下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引,;反之,at=1时,若m(t)=0,下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引,若m(t)=1,则从集合M中随机抽取一个文件来替换当前雾接入点缓存空间中位于末尾处的文件,新更新的文件的被请求次数默认为0,取降序排列和替换操作后的所有缓存文件的索引为下一个系统状态;
S9:根据时隙t中缓存命中情况和相应的请求文件传输成本得到奖励函数rt:
其中,rt为奖励函数,θt()用以判断被请求文件ft,u,n是否在时隙t内被缓存在雾接入点中,若被缓存在雾接入点中,则θt(ft,u,n)=1,否则θt(ft,u,n)=0,s表示用户直接从邻近雾接入点中获取待请求文件ft,u,n的传输成本,b(b>>s)表示从云服务器中获取被请求文件ft,u,n的传输成本,b-s表示雾接入点从云服务器中进行一个文件的更新所消耗的传输成本,η表示请求一个文件所要花费的费用,由于在每个时隙,雾接入点只需要向用户广播其所有缓存文件的“摘要”信息,这部分传输成本忽略不计;
S10:记录当前时隙的系统状态st、动作向量at、下一系统状态st+1、奖励函数rt作为一个经验元组,并将其存储于经验重放区D中;
S11:随机抽取经验重放区中的一组经验元组[sj,aj,rj,s′j]T对动作值函数相关神经网络Q(st,at;θ)进行训练,更新其参数θ,令t=t+1,开始下一个时隙的缓存优化,另一目标动作值函数相关神经网络的参数θ-只需复制前者的参数每隔K个时隙进行延时更新。具体包括:
S11:随机抽取经验重放区中的一组经验元组[sj,aj,rj,s′j]T对动作值函数相关神经网络Q(st,at;θ)进行训练:
其中γ为折扣因子,第j时隙的系统状态sj、动作向量aj、下一系统状态sj+1、奖励函数rj;
这里的经验元组是从经验重放区中随机抽取得到的,即用第j时隙产生的经验元组带入神经网络进行训练用于更新参数θ。
每一次对于神经网络的训练都需要一组经验元组,而通过经验元组的随机抽取,人为地切断了经验元组之间的相关性,从而避免陷入局部优化。
S12:执行一个梯度下降的步骤(yj-Q(sj,aj;θ))2来更新其参数θ;
S13:令t=t+1,回到S3开始下一个时隙的缓存优化,直至达到最终时隙;
由附图2的仿真结果可得,与最近最少使用缓存方法(Least Recently Used,LRU)和最近最不常用缓存方法(Least Frequently Used,LFU)这两种传统的缓存方法比较,本发明所述的基于深度强化学习框架下带有内容推荐的边缘缓存方法(β=1.5)的单个用户请求的平均奖励(净利润)明显更优,与传统方法相比增加了近一半;此外,与不带有内容推荐的相同方法(β=1)相比,缓存效率和收敛性能也得到了提高。
Claims (11)
1.一种雾无线接入网中深度强化学习下带有推荐的缓存方法,其特征在于:包括以下步骤:
步骤1:在当前时隙开始时,雾接入点以广播的形式向其覆盖范围内的所有用户进行内容推荐,推荐内容为雾接入点中当前所有缓存文件所对应的摘要信息;
步骤2:在当前时隙内,利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量进行建模;每一个用户在当前时隙中尝试进行文件请求,其每一个请求的产生过程可分为两种情况:用户冲动性请求情况和基于用户偏好矢量的用户请求情况,基于这两种情况,对当前时隙内的每一个用户的文件请求进行建模,得到时隙t内的所有用户的文件请求集合其中,且其中reqt,u为第u个用户在时隙t中的请求集合,Nt,u为用户u在时隙t内的文件请求数目,满足Nt,u∈[0,Nmax],Nmax为时隙t内每个用户的最大的文件请求数目,ft,n,u为被请求的文件,tu,n为具体的文件请求发生的时间;
步骤3:在当前时隙结束时,在深度强化学习框架下,采用贪婪算法计算得到缓存动作向量,所述深度强化学习框架包括动作值函数相关神经网络Q(st,at;θ),其中,st为系统状态,at为缓存动作向量,参数θ;根据计算得到的缓存动作向量和当前时隙缓存命中情况对应得到下一个系统状态,所述系统状态为雾接入点中当前缓存的文件的索引集合;所述索引为被缓存文件在云服务器上的文件集合中的编号,雾接入点中的本地缓存文件根据得到的下一个系统状态进行相应的更新操作;
步骤4:根据当前时隙中缓存命中情况和请求文件传输成本得到奖励函数;
步骤5:将当前时隙的系统状态、缓存动作向量、下一个系统状态、奖励函数记录为一个经验元组,并将该经验元组存储在经验重放区;
步骤6:以步骤2得到的用户请求集合作为深度强化学习框架中与雾接入点在t时隙进行交互的外部环境,随机抽取经验重放区中的一组经验元组对动作值函数相关神经网络进行训练并更新该动作值函数相关神经网络的相关参数;
步骤7:判断是否达到最终时隙,若是,则雾接入点内的当前缓存文件为最终的缓存结果,否则进入下一个时隙,并执行步骤1。
2.根据权利要求1所述的一种雾无线接入网中深度强化学习下带有推荐的缓存方法,其特征在于:在执行步骤1之前,还包括初始化过程:
初始化云服务器上的文件集合C={1,2,…c,…,C},从文件集合C中抽取F个文件作为雾接入点的原始本地缓存,将F个文件按照文件序号顺序降序进行排列,抽取的F个文件的有序的索引集合作为系统初始状态s0;
初始化用户偏好候选集P={p1,p2,…,pg,…,pG},其中pg=[pg,1,pg,2,…,pg,C]T为一个初始用户偏好矢量,满足Zipf分布,每个用户偏好矢量中包含C个偏好值,对应文件集合C中的C个文件;
初始化深度强化学习框架,包括初始化动作值函数相关神经网络Q(st,at;θ)对应参数θ,其中,st为系统状态,at为缓存动作向量。
4.根据权利要求1所述的一种雾无线接入网中深度强化学习下带有推荐的缓存方法,其特征在于:所述步骤2具体包括以下子步骤:
S210:利用用户偏好候选集、推荐内容、用户行为、用户移动模式对雾接入点覆盖范围内的每个用户的用户偏好矢量pt,u进行建模;
当用户按照当前的用户偏好矢量进行文件请求时,从文件集合C中抽取一个待请求文件,通过伯努利分布对请求过程进行建模,以确定所选文件是否被真正请求,如下面公式(1)所示:
式中,为被选择的文件ft,n,u所对应的用户偏好值,Nt,u为用户u在时隙t内的文件请求数目,其满足Nt,u∈[0,Nmax],被选择的文件有的概率被真正请求,请求数目加1;反之,有的概率,该被选择文件没有被真正请求,请求数目不变;
5.根据权利要求4所述的一种雾无线接入网中深度强化学习下带有推荐的缓存方法,其特征在于:所述S210的具体操作如下:
S211:根据用户运动模式,对时隙t内雾接入点覆盖范围内的所有用户进行分类得到在时隙t内新到达的新用户和在时隙t之前便已存在的老用户,新用户记为老用户记为 Ut={1,2,…,u,…,Ut}为时隙t内雾接入点覆盖范围内的所有用户;每个新用户的初始用户偏好矢量是从用户偏好候选集P={p1,p2,…,pg,…,pG}中随机抽取并进行适量修改后得到;每个老用户在当前时隙的用户偏好矢量继承上一时隙的用户偏好矢量;
S212:根据雾接入点在时隙t内的推荐内容对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新:
pt,u为第t时隙内第u个用户的用户偏好矢量,rect=[rect,1,rect,2,…,rect,c,…,rect,C]T为当前雾接入点的内容推荐向量,若第c个文件被推荐,则rect,c=β,β≥1,否则rect,c=1,Φ()为归一化函数;
S213:根据每个用户的行为对雾接入点覆盖范围内的所有用户的用户偏好矢量进行更新,所述用户的行为为用户在当前文件请求之前的所有文件请求状况。
8.根据权利要求1或7所述的一种雾无线接入网中深度强化学习下带有推荐的缓存方法,其特征在于:所述的根据计算得到的缓存动作向量和当前时隙缓存命中情况对应得到下一个系统状态的具体步骤包括:
首先,根据时隙t内所有用户的请求,对雾接入点中当前所缓存的文件的被请求次数进行累加更新并将当前所缓存的文件按照更新后的被请求次数进行降序排列;
之后,所述当前时隙缓存命中情况分为当前时隙内所有用户的文件请求都能从当前雾接入点直接获得和存在无法从雾接入点中获得的被请求文件,定义判决变量m(t),当存在无法从雾接入点中获得的被请求文件时,判决变量m(t)=1,且将该被请求文件填充至集合M中;当当前时隙内所有用户的文件请求都能从当前雾接入点直接获得时,判决变量m(t)=0,且集合在每个时隙开始时,需对集合M进行清空;
所述缓存动作向量at和判决变量m(t)共同决定下一个系统状态:
若at=0,则下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引;
若at=1且m(t)=0,则下一个系统状态为雾接入点中进行降序排列后的所有缓存文件所对应的索引;
若at=1且m(t)=1,则从集合M中随机抽取一个文件来替换当前雾接入点缓存空间中位于末尾处的文件,新更新的文件的被请求次数默认为0,取降序排列和替换操作后的所有缓存文件的索引为下一个系统状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102408.5A CN111314862B (zh) | 2020-02-19 | 2020-02-19 | 雾无线接入网中深度强化学习下带有推荐的缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102408.5A CN111314862B (zh) | 2020-02-19 | 2020-02-19 | 雾无线接入网中深度强化学习下带有推荐的缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111314862A true CN111314862A (zh) | 2020-06-19 |
CN111314862B CN111314862B (zh) | 2022-01-28 |
Family
ID=71145054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010102408.5A Active CN111314862B (zh) | 2020-02-19 | 2020-02-19 | 雾无线接入网中深度强化学习下带有推荐的缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314862B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111954236A (zh) * | 2020-07-27 | 2020-11-17 | 河海大学 | 一种基于优先级的分层边缘计算卸载方法 |
CN112597388A (zh) * | 2020-12-18 | 2021-04-02 | 南京邮电大学 | 一种缓存使能的d2d通信联合推荐与缓存方法 |
CN113923128A (zh) * | 2021-10-27 | 2022-01-11 | 东南大学 | 雾无线接入网中基于联邦强化学习的智能编码缓存方法 |
CN114025017A (zh) * | 2021-11-01 | 2022-02-08 | 杭州电子科技大学 | 基于深度循环强化学习的网络边缘缓存方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140140213A1 (en) * | 2009-01-28 | 2014-05-22 | Headwater Partners I Llc | Service Policy Implementation for an End-User Device Having a Control Application or a Proxy Agent for Routing an Application Traffic Flow |
CN105100276A (zh) * | 2015-09-01 | 2015-11-25 | 厦门大学 | 一种面向次等内容分发系统的区域内容缓存装置及其方法 |
CN105227396A (zh) * | 2015-09-01 | 2016-01-06 | 厦门大学 | 一种面向移动通信网络的次等内容推荐分发系统及其方法 |
CN106879071A (zh) * | 2017-02-13 | 2017-06-20 | 电子科技大学 | 基于动态时隙分配的无线Mesh网络低时延优化方法 |
US9992300B2 (en) * | 2014-05-20 | 2018-06-05 | Electronics And Telecommunications Research Institute | Method of adaptively deploying cache positioned at subscriber network, and system therefor |
CN108881444A (zh) * | 2018-06-22 | 2018-11-23 | 东南大学 | 一种内容流行度分布不一致的雾无线接入网非同步编码缓存方法 |
CN109831790A (zh) * | 2019-03-05 | 2019-05-31 | 东南大学 | 雾无线接入网中基于头脑风暴优化算法的协作缓存方法 |
CN109873869A (zh) * | 2019-03-05 | 2019-06-11 | 东南大学 | 一种雾无线接入网中基于强化学习的边缘缓存方法 |
CN110519801A (zh) * | 2019-08-15 | 2019-11-29 | 东南大学 | 一种雾无线接入网中基于贪婪算法的混合缓存内容部署方法 |
-
2020
- 2020-02-19 CN CN202010102408.5A patent/CN111314862B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140140213A1 (en) * | 2009-01-28 | 2014-05-22 | Headwater Partners I Llc | Service Policy Implementation for an End-User Device Having a Control Application or a Proxy Agent for Routing an Application Traffic Flow |
US9992300B2 (en) * | 2014-05-20 | 2018-06-05 | Electronics And Telecommunications Research Institute | Method of adaptively deploying cache positioned at subscriber network, and system therefor |
CN105100276A (zh) * | 2015-09-01 | 2015-11-25 | 厦门大学 | 一种面向次等内容分发系统的区域内容缓存装置及其方法 |
CN105227396A (zh) * | 2015-09-01 | 2016-01-06 | 厦门大学 | 一种面向移动通信网络的次等内容推荐分发系统及其方法 |
CN106879071A (zh) * | 2017-02-13 | 2017-06-20 | 电子科技大学 | 基于动态时隙分配的无线Mesh网络低时延优化方法 |
CN108881444A (zh) * | 2018-06-22 | 2018-11-23 | 东南大学 | 一种内容流行度分布不一致的雾无线接入网非同步编码缓存方法 |
CN109831790A (zh) * | 2019-03-05 | 2019-05-31 | 东南大学 | 雾无线接入网中基于头脑风暴优化算法的协作缓存方法 |
CN109873869A (zh) * | 2019-03-05 | 2019-06-11 | 东南大学 | 一种雾无线接入网中基于强化学习的边缘缓存方法 |
CN110519801A (zh) * | 2019-08-15 | 2019-11-29 | 东南大学 | 一种雾无线接入网中基于贪婪算法的混合缓存内容部署方法 |
Non-Patent Citations (1)
Title |
---|
蒋雁翔: "雾无线接入网中的多层协作缓存方法", 《通信学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111954236A (zh) * | 2020-07-27 | 2020-11-17 | 河海大学 | 一种基于优先级的分层边缘计算卸载方法 |
CN111954236B (zh) * | 2020-07-27 | 2021-11-09 | 河海大学 | 一种基于优先级的分层边缘计算卸载方法 |
CN112597388A (zh) * | 2020-12-18 | 2021-04-02 | 南京邮电大学 | 一种缓存使能的d2d通信联合推荐与缓存方法 |
CN112597388B (zh) * | 2020-12-18 | 2022-10-14 | 南京邮电大学 | 一种缓存使能的d2d通信联合推荐与缓存方法 |
CN113923128A (zh) * | 2021-10-27 | 2022-01-11 | 东南大学 | 雾无线接入网中基于联邦强化学习的智能编码缓存方法 |
CN113923128B (zh) * | 2021-10-27 | 2024-02-13 | 东南大学 | 雾无线接入网中基于联邦强化学习的智能编码缓存方法 |
CN114025017A (zh) * | 2021-11-01 | 2022-02-08 | 杭州电子科技大学 | 基于深度循环强化学习的网络边缘缓存方法、装置及设备 |
CN114025017B (zh) * | 2021-11-01 | 2024-04-16 | 杭州电子科技大学 | 基于深度循环强化学习的网络边缘缓存方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111314862B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111314862B (zh) | 雾无线接入网中深度强化学习下带有推荐的缓存方法 | |
CN113055489B (zh) | 基于q学习的星地融合网络资源分配策略的实现方法 | |
CN112995950B (zh) | 一种车联网中基于深度强化学习的资源联合分配方法 | |
CN110069341B (zh) | 边缘计算中结合功能按需配置的有依赖关系任务的调度方法 | |
CN110968426B (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN113485826B (zh) | 一种边缘服务器负载均衡方法、系统 | |
CN111491331B (zh) | 一种雾计算网络中基于迁移学习的网络感知自适应缓存方法 | |
CN112565377B (zh) | 车联网中一种面向用户服务体验的内容分级优化缓存方法 | |
CN115374853A (zh) | 基于T-Step聚合算法的异步联邦学习方法及系统 | |
Li et al. | DQN-enabled content caching and quantum ant colony-based computation offloading in MEC | |
CN113015219B (zh) | 基于策略梯度的网络资源选择方法、装置以及存储介质 | |
CN114641041A (zh) | 一种面向边缘智能的车联网切片方法及装置 | |
CN115022332A (zh) | 一种边缘计算中基于深度强化学习的动态服务放置方法 | |
CN117202264A (zh) | Mec环境中面向5g网络切片的计算卸载方法 | |
CN113543160A (zh) | 5g切片资源配置方法、装置、计算设备及计算机存储介质 | |
CN107528914B (zh) | 数据分片的资源征用调度方法 | |
CN111901394A (zh) | 一种联合考虑用户偏好及活跃程度的移动边缘缓存的方法及系统 | |
Li et al. | A smart cache content update policy based on deep reinforcement learning | |
CN113676519B (zh) | 车辆内容预缓存和宽带分配的联合优化方法及装置 | |
CN117093330B (zh) | 无服务器计算中的容器管理方法及装置 | |
CN114385359B (zh) | 一种物联网云边端任务时序协同方法 | |
CN115941992B (zh) | 一种基于信道条件的缓存使能的多质量视频分发方法 | |
CN116743584B (zh) | 一种基于信息感知及联合计算缓存的动态ran切片方法 | |
CN112822726B (zh) | 一种Fog-RAN网络缓存放置问题的建模和决策方法 | |
CN110933119B (zh) | 一种更新缓存内容的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |