CN112218337A - 一种移动边缘计算中的缓存策略决策方法 - Google Patents

一种移动边缘计算中的缓存策略决策方法 Download PDF

Info

Publication number
CN112218337A
CN112218337A CN202010919693.XA CN202010919693A CN112218337A CN 112218337 A CN112218337 A CN 112218337A CN 202010919693 A CN202010919693 A CN 202010919693A CN 112218337 A CN112218337 A CN 112218337A
Authority
CN
China
Prior art keywords
file
time slot
cell
mobile
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010919693.XA
Other languages
English (en)
Other versions
CN112218337B (zh
Inventor
周继鹏
庄娘涛
纪杨阳
张效铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202010919693.XA priority Critical patent/CN112218337B/zh
Publication of CN112218337A publication Critical patent/CN112218337A/zh
Application granted granted Critical
Publication of CN112218337B publication Critical patent/CN112218337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种移动边缘计算的缓存策略决策方法,该方法构建带移动边缘计算服务器的宏基站、带移动边缘计算服务器的小基站和移动用户组成的多小区网络模型,解决多小区的协作缓存问题。移动边缘计算服务器能够缓存定量的文件为移动用户提供缓存服务,若移动边缘计算服务器内缓存的文件命中了移动用户的文件请求,便能为该移动用户提供低时延的缓存服务并缓解回程链路的负载。由于移动边缘计算服务器的缓存容量有限,该方法引入深度Q网络算法得到满足要求的各小区基站的缓存策略,有效降低小区内所有移动用户请求文件产生的总时延和和回程链路负载。

Description

一种移动边缘计算中的缓存策略决策方法
技术领域
本发明涉及移动边缘计算的多小区网络模型及边缘网络的多小区协作缓存技术,具体涉及一种移动边缘计算中的缓存策略决策方法。
背景技术
近年来,随者智能终端设备的快速发展及许多丰富多彩的多媒体内容及应用的出现,预计未来的流量将呈现爆炸式的增长,将会给移动回程容量带来巨大压力。思科的一份报告《Cisco visual networking index:Global mobile data traffic forecastupdate,2017–2022》表明了,在2017年至2022年间,全球的移动数据流量将会增长至原来的七倍,并于2022年,每月的全球移动数据流量增至77艾字节,一年间的移动数据流量将达到近乎一个泽字节,并且将近有五分之三的流量将从蜂窝网络中卸载。目前已经有许多学者提出了各种方法来应这些挑战,但是为了能够承受和支持未来5G网络中预见的大规模流量的应用场景,除了提高网络容量,还必须伴随更高层(例如,网络架构,回程传输和应用)的创新。
虽然云计算在过去一直被用于服务提供弹性的计算能力和缓存需求的终端设备,为移动用户节省了较大的开销以及创造出了有效的经济效益。但是现代科技的飞速发展,许多移动应用程序,如VR、AR以及车联网,对计算能力和时延非常敏感,云计算这种集中式处理模式已经不再适用于这个万物互联时代,因为将所有移动用户的数据和计算任务都迁移到远端云不仅会大大加重远端核心网络的负担,也会导致较大的传输延迟,从而降低移动用户体验。为了应对上述问题,产业界和学术界开始研究新的网络架构模型,移动边缘计算(Mobile Edge Computing,MEC)便在这时期应运而生。
MEC把云计算平台从远端网络迁移到离移动用户更接近的边缘网络,通过部署边缘服务器在边缘网络的基站(Base Station,BS)处,能够为基站附近的移动用户提供具有更低时延、更高带宽的数据服务。思科报告还提到在2022年间,全球移动数据流量的79%都将会是视频流量,其原因是互联网上大部分的流量负载都来自于同一组视频文件的重复观看和下载,而边缘缓存可以看作是流量重复访问问题的有效解决方法。移动边缘计算部署服务器给基站带来了缓存功能,能够支持缓存受欢迎的视频或文件,以此可以提高移动用户的体验质量(Quality of Experience,QoE),改善网络性能(如传输时延、回程链路负载和能源效率)。
目前许多网络场景下的缓存研究,大多是利用累计手机的移动用户请求数据,再根据诸如Zipf等常见分布来描述缓存的内容流行度,同时假设内容流行度在一定时间内不会发生变化的前提下来求解缓存优化问题。但是在现实生活中,移动用户请求的数据往往是动态变化的,并且在每个地区的内容需求各不相同。为了能够解决在这种动态场景下的缓存优化问题,我们可以利用马尔可夫过程对移动用户请求进行建模,并采用强化学习(RL)理论,根据需求随时间变化的动态特性来学习网络的未知性为,从而得到更加符合实际场景下的最佳缓存策略。
但是,传统的强化学习存在一些问题,如当强化学习的状态和动作的数量非常庞大,以至于无法用传统表格形式来缓存记录这些数据时,算法模型便难以收敛。为了有效解决这个问题,可以利用深度学习的强表征能力,进而提高强化学习算法的求解与泛化能力。深度学习结构由多层网络构成,层与层之间是待调整隐藏参数,每层输出还需经过非线性函数映射。只要网络层数足够深,通过调节层与层之间是待调节的隐藏参数可以拟合任何状态或动作数据。
发明内容
本发明的目的是为了解决现有技术中的上述挑战,提出一种移动边缘计算中的缓存决策方法,该决策方法能够在动态场景下获取MEC的最佳缓存策略,从而最小化全局网络在总时隙所造成的运营成本。
本发明针对一个多小区网络模型推出一种基于深度强化学习的缓存策略决策方法,该方法利用深度强化学习的DQN算法定义了多小区网络模型基于强化学习的状态、动作集、奖励函数等概念,给出由训练集训练过的DQN算法的神经网络,最后能够获取最大Q值的缓存策略,该缓存策略有效降低全局网络的总时延成本和回程链路负载;相对于传统缓存策略算法,本发明运用深度强化学习的DQN算法作为缓存策略的求解方法,通过融合强化学习与深度学习的优点,能够适应动态场景下的缓存优化问题;相对于强化学习的Q-learning算法,本发明运用的DQN算法能够在Q-learning算法的基础上加入了神经网络,解决了维度灾难等问题。通过以上三点的主要优化和改进,能够获得网络整体性能较好的缓存策略。
本发明的目的可以通过采取如下技术方案达到:
一种移动边缘计算中的缓存策略决策方法,所述的缓存策略决策方法包括下列步骤:
S1、构建移动边缘计算的多小区网络模型,该多小区网络模型包括宏基站、小基站和移动用户,其中宏基站简称MBS,小基站简称SBS;每个小区配备一个MBS、s个SBS和h个移动用户;SBS与移动用户之间通过无线连接,SBS可以向在服务范围内的移动用户提供服务,每个移动用户可能会在多个SBS的服务范围内,但在同一时间里,移动用户只能够与一个SBS连接获取服务;MBS与同小区的SBS通过无线连接,不同小区的MBS间通过高容量链路连接,并且每个MBS还通过回程链路与远端互联网络连接;
S2、将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法,训练深度Q网络算法的神经网络参数,深度Q网络算法简称DQN算法;
S3、MEC服务器将运行时间划分为T个时隙,在每个时隙的开始,MEC服务器会收集在服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据;
S4、使用DQN算法输出缓存策略和所对应的Q值,选择Q值最高的缓存策略作为当前时隙的最佳缓存策略;
S5、MEC服务器按照当前时隙的最佳缓存策略为部署依据,从文件库抓取相应的文件缓存;
S6、多小区网络模型完成当前时隙的文件部署后,判断是否结束,否则进入下一时隙,收集下一时隙内的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中,转到步骤S4。
进一步地,所述移动用户的文件请求被服务的规则归结为:当移动用户位于多个SBS服务范围内时,若请求的文件缓存在这些SBS当中,则直接发送给移动用户,倘若不是,则通过MBS找到缓存有该文件的基站位置,并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户;若本小区没有缓存该文件,则借助其它小区的协作获取到文件发送给移动用户,否则,将请求发送给远端云核心网获取文件。
进一步地,所述DQN算法是结合神经网络的Q-learning算法,通过不断与环境的交互,选择最佳的动作,实现过程如下:
将环境状态作为输入,输出动作和所对应的Q值,使用ε-greedy贪婪算法,以概率ε随机选择一个动作,以概率1-ε选择最优Q值的动作,执行选择的动作进入下一个状态,将这条记录加入到DQN算法的经验池中进行二次训练,DQN算法的神经网络训练优化网络参数,待训练完毕,输出值运用最优解策略,输出最优解。
进一步地,所述DQN算法的状态定义为:在某个时隙t下,所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集,那么,在时隙t下的状态Xt表示为:
Xt=(Ot,At),t=1,2,…,T
其中Ot表示时隙t内所有移动用户的文件请求信息集合,At表示在时隙t时的所有基站(包括MBS和SBS)缓存的文件集合。
进一步地,所述DQN算法的动作定义为:当在某个时隙t下的状态Xt时,处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限,在时隙t下,小区i内基站j的文件调整用一个F×F矩阵表示:
Figure BDA0002666286020000061
其中C={c1,c2…,cm}表示小区集合,m表示多小区网络模型下小区的个数;Bi个数表示小区i下所有基站组成的集合;apq={0,1}表示基站执行的动作,取1表示将基站的内容q替换成内容p,当p=q时表示该基站的内容保持不变,显然,存在约束条件:
Figure BDA0002666286020000062
Figure BDA0002666286020000063
其中,F表示多小区网络模型的文件库大小;
该时隙t下的动作集为:
Figure BDA0002666286020000064
进一步地,所述DQN算法的奖励函数表示为:
Figure BDA0002666286020000065
其中Et(At)表示多小区网络模型在时隙t下的成本函数,表达式如下:
Et(At)=α·L(At)+(1-α)·D(At),t=1,2,…,T
其中α∈(0,1)表示权重因子;D(At)表示时隙t的全局网络的总时延成本;L(At)表示时隙t的全局网路下产生的回程链路负载成本。
进一步地,所述时隙t的全局网络的总时延成本表示为:
Figure BDA0002666286020000066
其中
Figure BDA0002666286020000067
表示服务移动用户u产生的文件请求
Figure BDA0002666286020000068
带来的时延成本,
Figure BDA0002666286020000069
表示时隙t内所有移动用户产生的请求文件集合,Ut表示小区i的用户集合,
Figure BDA00026662860200000610
表述如下:
Figure BDA0002666286020000071
其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本;t0表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本,t(u,mbi)表示从MBS传输到移动用户的时延成本;Vbs表示全局网络下所有基站(包括所有MBS和SBS)组成的集合,Atotal=∪i∈CAi表示全局网络下缓存的文件并集,mbi表示小区i内的MBS。
进一步地,一旦移动用户的文件请求能够在小区层面上得到服务,就不用再将请求发送到远端的核心云来获取服务,这种情况下能够降低回程链路间传输的流量;因此,将时隙t的全局网路下产生的回程链路负载成本表示为:
Figure BDA0002666286020000072
其中At表示全局网络的缓存策略,
Figure BDA0002666286020000073
表示全局网络下文件f的在时隙t被防问的次数,Sf表示文件f的文件大小,集合
Figure BDA0002666286020000074
表示集合Atotal关于文件库F的补集。
进一步地,所述DQN算法的Q值函数更新公式为:
Figure BDA0002666286020000075
其中Xt,Yt表示当前时隙的状态和动作集,Xt+1,Yt+1表示下个时隙的状态和动作集,R(Xt+1,Yt+1)表示下一时隙的奖励函数;α表示学习率,λ∈[0,1)是衰减系数,当λ趋近于0时,全局网络将倾向于注重当前的瞬时奖励,若λ趋于1时,全局网络将倾向于注重未来的回报。
进一步地,所述DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术;它使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型,通过神经网络模型q(Xt,Yt,θ)来模拟动作值函数q(Xt,Yt),即:
q(Xt,Yt,θ)≈q(Xt,Yt)
根据上述Q值函数更新公式,使用均方误差来定义目标函数,作为神经网络的损失函数为:
Figure BDA0002666286020000081
其中E表示数学期望;最后,使用梯度下降法来实现神经网络模型对目标函数的优化。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明在移动边缘计算场景下提出的多小区网络模型考虑的是多个小区相互协作的网络应用场景,每个基站配备有MEC服务器,具备计算、缓存和管理功能。MEC服务器能够缓存一定量的文件,并通过基站之间的协作帮助,向服务范围内的移动用户提供边缘缓存服务,从而降低服务移动用户的请求文件信息所带来的时延成本以及减轻回程链路的负载,改善网络性能。
(2)本发明运用深度强化学习的DQN算法对缓存策略求解,相比传统的缓存策略求解算法,DQN算法目的是获得最大化累计奖励,从而更加适应具备时隙模式下的动态场景。
(3)本发明运用深度强化学习的DQN算法来求解缓存优化问题,DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术,能够避免单纯的Q-learing算法带来的维度灾难等问题。
附图说明
图1是本发明公开的一种由MBS、SBS和移动用户组成的多小区网络模型图;
图2是本发明公开的网络结构拓扑图;
图3是本发明公开的移动边缘计算中的缓存策略决策方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方法和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方法进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例给出了缓存策略决策方法在移动边缘计算中的使用,下面结合附图3中本发明公开的移动边缘计算中的缓存策略决策方法的流程图,具体说明本发明的方法,该方法的实现包括以下步骤:
首先,构建移动边缘计算的多小区网络模型,该多小区网络模型包括宏基站、小基站和移动用户,其中宏基站简称MBS,小基站简称SBS;每个小区配备一个MBS、s个SBS和h个移动用户;SBS与移动用户之间通过无线连接,SBS可以向在服务范围内的移动用户提供服务,每个移动用户可能会在多个SBS的服务范围内,但在同一时间里,移动用户只能够与一个SBS连接获取服务;MBS与同小区的SBS通过无线连接,不同小区的MBS间通过高容量链路连接,并且每个MBS还通过回程链路与远端互联网络连接。
其中,移动用户的文件请求被服务的规则可以归结为:当移动用户位于多个SBS服务范围内时,若请求的文件缓存在这些SBS当中,则直接发送给移动用户,倘若不是,则通过MBS找到缓存有该文件的基站位置,并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户;若本小区没有缓存该文件,则借助其它小区的协作获取到文件发送给移动用户,否则,将请求发送给远端云核心网获取文件。
然后,将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法,训练深度Q网络算法的神经网络参数,深度Q网络算法简称DQN算法;MEC服务器将运行时间划分为T个时隙,在每个时隙的开始,MEC服务器会收集在服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据。
使用DQN算法输出缓存策略和所对应的Q值,选择Q值最高的缓存策略作为这个时隙的最佳缓存策略;MEC服务器按照这个时隙的最佳缓存策略为部署依据,从文件库抓取相应的文件缓存;多小区网络模型完成当前时隙的文件部署后,判断是否结束,否则进入下一时隙,收集这个时隙下的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中,转到Q值选择那一步。
DQN算法是结合神经网络的Q-learning算法,通过不断与环境的交互,选择最佳的动作;DQN算法步骤如下:
将环境状态进行输入,输出动作和所对应的Q值,使用ε-greedy贪婪算法,以概率ε随机选择一个动作,以概率1-ε选择最优Q值的动作,执行选择的动作进入下一个状态,将这条记录加入到DQN算法的经验池中进行二次训练,DQN算法的神经网络训练优化网络参数,待训练完毕,输出值运用最优解策略,输出最优解。
DQN算法的状态可以定义为:在某个时隙t下,所有移动用户的文件请求信息和这个时隙下各个基站缓存的文件集。那么,在时隙t下的状态Xt可以表示为:
Xt=(Ot,At),t=1,2,…,T
其中Ot表示时隙t内所有移动用户的文件请求信息集合,At表示在时隙t时的所有基站(包括MBS和SBS)缓存的文件集合。
DQN算法的动作定义为:当在某个时隙t下的状态Xt时,处于多小区网络模型下的每个基站可以做出这样的动作:基站可以决定将自身缓存的文件集的文件保留与替换。在时隙t时,小区i内基站j的文件调整可以用一个F×F矩阵表示:
Figure BDA0002666286020000111
其中C={c1,c2,…,cm}表示小区集合,m表示多小区网络模型下小区的个数;Bi个数表示小区i下所有基站组成的集合;apq={0,1}表示基站执行的动作,取1表示将基站的内容q替换成内容p,当p=q时表示该基站的内容保持不变,显然,存在约束条件:
Figure BDA0002666286020000112
Figure BDA0002666286020000113
其中,F表示多小区网络模型的文件库大小。最后,我们可以表示个时隙t下的动作集为:
Figure BDA0002666286020000121
DQN算法的奖励函数表示为:
Figure BDA0002666286020000122
其中Et(At)表示本文提出的多小区网络模型在时隙t下的成本函数,具体描述如下所示:
Et(At)=α·L(At)+(1-α)·D(At),t=1,2,…,T
其中α∈(0,1)表示权重因子;D(At)表示时隙t的全局网络的总时延成本;L(At)表示时隙t的全局网路下产生的回程链路负载成本。
时隙t的全局网络的总时延成本可以表示为:
Figure BDA0002666286020000123
其中
Figure BDA0002666286020000124
表示服务移动用户u产生的文件请求
Figure BDA0002666286020000125
带来的时延成本,
Figure BDA0002666286020000126
表示时隙t内所有移动用户产生的请求文件集合,Ut表示小区i的用户集合,
Figure BDA0002666286020000127
表述如下:
Figure BDA0002666286020000128
其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本;t0表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本,t(u,mbi)表示从MBS传输到移动用户的时延成本。Vbs表示全局网络下所有基站(包括所有MBS和SBS)组成的集合,Atotal=∪i∈CAi表示全局网络下缓存的文件并集,mbi表示小区i内的MBS。
一旦移动用户的文件请求能够在小区层面上得到服务,就不用再将请求发送到远端的核心云来获取服务,这种情况下能够降低回程链路间传输的流量。因此,所述的时隙t的全局网路下产生的回程链路负载成本可以表示为:
Figure BDA0002666286020000131
其中At表示全局网络的缓存策略,
Figure BDA0002666286020000132
表示全局网络下文件f的在时隙t被访问的次数,Sf表示文件f的文件大小,集合
Figure BDA0002666286020000133
表示集合Atotal关于文件库F的补集。
DQN算法的Q值函数更新公式为:
Figure BDA0002666286020000134
其中Xt,Yt表示当前时隙的状态和动作集,Xt+1,Yt+1表示下个时隙的状态和动作集,R(Xt+1,Yt+1)表示下一时隙的奖励函数。α表示学习率,λ∈[0,1)是衰减系数,当λ趋近于0时,全局网络将更注重当前的瞬时奖励,若趋于1时,则更加关注未来的回报。
DQN算法是结合Q-learning算法、经验回放机制以及基于神经网络生成动作值等技术。它使用一个权重参数为的θ深度神经网络作为动作值函数的神经网络模型,通过神经网络模型q(Xt,Yt,θ)来模拟动作值函数q(Xt,Yt),即:
q(Xt,Yt,θ)≈q(Xt,Yt)
根据上述的动作值函数更新公式,使用均方误差来定义目标函数,作为神经网络的损失函数为:
Figure BDA0002666286020000135
其中E表示数学期望。最后,使用梯度下降法来实现神经网络模型对目标函数的优化。
其中考虑一个由5000m×5000m的正方形区域作为实验的模拟环境,区域内包括半径为600m的圆形区域的三个小区,每个小区包含1个MBS、8个SBS和200个移动用户,其中MBS的通讯范围是600m,SBS的通讯范围是250m,MBS位于小区的中心点,SBS和移动用户的位置则是随机均匀地分布在小区内。
为了比较DQN算法的一般性能,我们提供了几种常见的算法:LRU、LFU和FIFO算法作为比较的基准,其中LRU是最近最少使用算法,即替换掉最近最少使用的内容;LFU为最小频率使用算法,规则是替换掉最不常用的内容,FIFO为先进先出算法。从全局网络时延成本和回程链路负载两个指标触犯,通过与几种常见的算法进行比较,衡量本方法的性能。
实验使用马萨诸塞大学安姆斯特分校收集的YouTube请求数据集(网址:http://traces.cs.umass.edu/index.php/Network/Network)作为多小区网络模型的数据依据,选取请求访问量最多的前200个文件作为实验的文件库文件;文件的流行度服从参数为1.5的Zip-f分布,Zip-f分布需要的文件排名信息以YouTube数据集为依据获取;设定所有文件的大小统一为10MB,SBS的缓存容量大小为50MB,MBS的缓存容量大小为100MB
传输时延作为拓扑图G(V,E)边e(i,j)∈E的权值,拓扑图如本发明公开的网络结构拓扑图附图2所示;其值的确定由发送方和接收方的角色来确定;设定文件从SBS到移动用户的传输时延为10ms,从MBS到SBS(或者从SBS到MBS)的传输时延为10ms,其它小区的MBS传输到本小区MBS的时延为50ms,从远端互联网络到MBS的传输时延为130ms。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种移动边缘计算中的缓存策略决策方法,其特征在于,所述决策方法包括下列步骤:
S1、构建移动边缘计算的多小区网络模型,该多小区网络模型包括宏基站、小基站和移动用户,其中宏基站简称MBS,小基站简称SBS;每个小区配备一个MBS、s个SBS和h个移动用户;SBS与移动用户之间通过无线连接,SBS向在服务范围内的移动用户提供服务,每个移动用户可能会在多个SBS的服务范围内,但在同一时间里,移动用户只能够与一个SBS连接获取服务;MBS与同小区的SBS通过无线连接,不同小区的MBS间通过高容量链路连接,并且每个MBS还通过回程链路与远端互联网络连接;
S2、将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法,训练深度Q网络算法的神经网络参数,深度Q网络算法简称DQN算法;
S3、MEC服务器将运行时间划分为T个时隙,在每个时隙的开始,MEC服务器收集服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据;
S4、使用DQN算法输出缓存策略和所对应的Q值,选择Q值最高的缓存策略作为当前时隙的最佳缓存策略;
S5、MEC服务器按照当前时隙的最佳缓存策略为部署依据,从文件库抓取相应的文件缓存;
S6、多小区网络模型完成当前时隙的文件部署后,判断是否结束,否则进入下一时隙,收集下一时隙内的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中,转到步骤S4。
2.根据权利要求书1所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述移动用户的文件请求被服务的规则为:当移动用户位于多个SBS服务范围内时,若请求的文件缓存在以上SBS当中,则直接发送给移动用户,倘若不是,则通过MBS找到缓存有该文件的基站位置,并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户;若本小区没有缓存该文件,则借助其它小区的协作获取到文件发送给移动用户,否则,将请求发送给远端云核心网获取文件。
3.根据权利要求书1所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法是结合神经网络的Q-learning算法,通过不断与环境的交互,选择最佳的动作,实现过程如下:
将环境状态作为输入,输出动作和所对应的Q值,使用ε-greedy贪婪算法,以概率ε随机选择一个动作,以概率1-ε选择最优Q值的动作,执行选择的动作进入下一个状态,将这条记录加入到DQN算法的经验池中进行二次训练,DQN算法的神经网络训练优化网络参数,待训练完毕,输出值运用最优解策略,输出最优解。
4.根据权利要求书3所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法的状态定义为:在某个时隙t下,所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集,那么,在时隙t下的状态Xt表示为:
Xt=(Ot,At),t=1,2,…,T
其中Ot表示时隙t内所有移动用户的文件请求信息集合,At表示在时隙t时的所有基站缓存的文件集合。
5.根据权利要求书4所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法的动作定义为:当在某个时隙t下的状态Xt时,处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限,在时隙t下,小区i内基站j的文件调整用一个F×F矩阵表示:
Figure FDA0002666286010000031
其中C={c1,c2,…,cm}表示小区集合,m表示多小区网络模型下小区的个数;Bi个数表示小区i下所有基站组成的集合;apq={0,1}表示基站执行的动作,取1表示将基站的内容q替换成内容p,当p=q时表示该基站的内容保持不变,显然,存在约束条件:
Figure FDA0002666286010000032
Figure FDA0002666286010000033
其中,F表示多小区网络模型的文件库大小;
该时隙t下的动作集为:
Figure FDA0002666286010000034
6.根据权利要求书5所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法的奖励函数表示为:
Figure FDA0002666286010000035
其中Et(At)表示多小区网络模型在时隙t下的成本函数,表达式如下:
Et(At)=α·L(At)+(1-α)·D(At),t=1,2,…,T
其中α∈(0,1)表示权重因子;D(At)表示时隙t的全局网络的总时延成本;L(At)表示时隙t的全局网路下产生的回程链路负载成本。
7.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法,所述时隙t的全局网络的总时延成本表示为:
Figure FDA0002666286010000041
其中
Figure FDA0002666286010000042
表示服务移动用户u产生的文件请求
Figure FDA0002666286010000043
带来的时延成本,
Figure FDA0002666286010000044
表示时隙t内所有移动用户产生的请求文件集合,Ut表示小区i的用户集合,
Figure FDA0002666286010000045
表述如下:
Figure FDA0002666286010000046
其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本;t0表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本,t(u,mbi)表示从MBS传输到移动用户的时延成本;Vbs表示全局网络下所有基站组成的集合,Atotal=∪i∈CAi表示全局网络下缓存的文件并集,mbi表示小区i内的MBS。
8.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,一旦移动用户的文件请求能够在小区层面上得到服务,就不用再将请求发送到远端的核心云来获取服务,将时隙t的全局网路下产生的回程链路负载成本表示为:
Figure FDA0002666286010000047
其中At表示全局网络的缓存策略,
Figure FDA0002666286010000048
表示全局网络下文件f的在时隙t被访问的次数,Sf表示文件f的文件大小,集合
Figure FDA0002666286010000049
表示集合Atotal关于文件库F的补集。
9.根据权利要求书6所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法的Q值函数更新公式为:
Figure FDA0002666286010000051
其中Xt,Yt表示当前时隙的状态和动作集,Xt+1,Yt+1表示下个时隙的状态和动作集,R(Xt +1,Yt+1)表示下一时隙的奖励函数;α表示学习率,λ∈[0,1)是衰减系数,当λ趋近于0时,全局网络将倾向于注重当前的瞬时奖励,若λ趋于1时,全局网络将倾向于注重未来的回报。
10.根据权利要求书9所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述DQN算法使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型,通过神经网络模型q(Xt,Yt,θ)来模拟动作值函数q(Xt,Yt),即:
q(Xt,Yt,θ)≈q(Xt,Yt)
根据上述Q值函数更新公式,使用均方误差来定义目标函数,作为神经网络的损失函数为:
Figure FDA0002666286010000052
其中E表示数学期望;最后,使用梯度下降法来实现神经网络模型对目标函数的优化。
CN202010919693.XA 2020-09-04 2020-09-04 一种移动边缘计算中的缓存策略决策方法 Active CN112218337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010919693.XA CN112218337B (zh) 2020-09-04 2020-09-04 一种移动边缘计算中的缓存策略决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010919693.XA CN112218337B (zh) 2020-09-04 2020-09-04 一种移动边缘计算中的缓存策略决策方法

Publications (2)

Publication Number Publication Date
CN112218337A true CN112218337A (zh) 2021-01-12
CN112218337B CN112218337B (zh) 2023-02-28

Family

ID=74049026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010919693.XA Active CN112218337B (zh) 2020-09-04 2020-09-04 一种移动边缘计算中的缓存策略决策方法

Country Status (1)

Country Link
CN (1) CN112218337B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822055A (zh) * 2021-01-21 2021-05-18 国网河北省电力有限公司信息通信分公司 一种基于dqn的边缘计算节点部署算法
CN112911647A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种基于深度强化学习的计算卸载和资源分配方法
CN113115340A (zh) * 2021-04-14 2021-07-13 重庆邮电大学 一种蜂窝网络中基于流行度预测的缓存优化方法
CN113141634A (zh) * 2021-03-11 2021-07-20 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN113297152A (zh) * 2021-05-11 2021-08-24 国网河南省电力公司信息通信公司 一种电力物联网边缘服务器缓存更新的方法及装置
CN113301169A (zh) * 2021-07-23 2021-08-24 杭州雅观科技有限公司 一种基于动态移动装置行为预测的边缘转网方法
CN113395333A (zh) * 2021-05-31 2021-09-14 电子科技大学 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN114172600A (zh) * 2021-12-03 2022-03-11 中国电信集团系统集成有限责任公司 一种传输链路自动算路方法及装置
CN115134418A (zh) * 2021-03-23 2022-09-30 中国移动通信集团江苏有限公司 一种多接入边缘计算的协同存储方法、系统及电子设备
CN115809147A (zh) * 2023-01-16 2023-03-17 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN116155991A (zh) * 2023-01-30 2023-05-23 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190014488A1 (en) * 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN109617991A (zh) * 2018-12-29 2019-04-12 东南大学 基于值函数近似的超密集异构网络小站编码协作缓存方法
CN110138836A (zh) * 2019-04-15 2019-08-16 北京邮电大学 一种基于优化能量效率的线上协作缓存方法
CN110312277A (zh) * 2019-04-08 2019-10-08 天津大学 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN110392377A (zh) * 2019-07-19 2019-10-29 北京信息科技大学 一种5g超密集组网资源分配方法及装置
CN110445825A (zh) * 2018-05-04 2019-11-12 东南大学 基于强化学习的超密集网络小站编码协作缓存方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
EP3648436A1 (en) * 2018-10-29 2020-05-06 Commissariat à l'énergie atomique et aux énergies alternatives Method for clustering cache servers within a mobile edge computing network
CN111565419A (zh) * 2020-06-15 2020-08-21 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存算法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190014488A1 (en) * 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN110445825A (zh) * 2018-05-04 2019-11-12 东南大学 基于强化学习的超密集网络小站编码协作缓存方法
EP3648436A1 (en) * 2018-10-29 2020-05-06 Commissariat à l'énergie atomique et aux énergies alternatives Method for clustering cache servers within a mobile edge computing network
CN109617991A (zh) * 2018-12-29 2019-04-12 东南大学 基于值函数近似的超密集异构网络小站编码协作缓存方法
CN110312277A (zh) * 2019-04-08 2019-10-08 天津大学 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN110138836A (zh) * 2019-04-15 2019-08-16 北京邮电大学 一种基于优化能量效率的线上协作缓存方法
CN110392377A (zh) * 2019-07-19 2019-10-29 北京信息科技大学 一种5g超密集组网资源分配方法及装置
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111565419A (zh) * 2020-06-15 2020-08-21 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALIREZA SADEGHI ETC.: "Reinforcement Learning for Adaptive Caching With Dynamic Storage Pricing", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 *
彭军等: "一种车载服务的快速深度Q学习网络边云迁移策略", 《电子与信息学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911647A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种基于深度强化学习的计算卸载和资源分配方法
CN112822055A (zh) * 2021-01-21 2021-05-18 国网河北省电力有限公司信息通信分公司 一种基于dqn的边缘计算节点部署算法
CN112822055B (zh) * 2021-01-21 2023-12-22 国网河北省电力有限公司信息通信分公司 一种基于dqn的边缘计算节点部署方法
CN113141634B (zh) * 2021-03-11 2022-05-03 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN113141634A (zh) * 2021-03-11 2021-07-20 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN115134418B (zh) * 2021-03-23 2023-10-27 中国移动通信集团江苏有限公司 一种多接入边缘计算的协同存储方法、系统及电子设备
CN115134418A (zh) * 2021-03-23 2022-09-30 中国移动通信集团江苏有限公司 一种多接入边缘计算的协同存储方法、系统及电子设备
CN113115340A (zh) * 2021-04-14 2021-07-13 重庆邮电大学 一种蜂窝网络中基于流行度预测的缓存优化方法
CN113115340B (zh) * 2021-04-14 2022-06-03 重庆邮电大学 一种蜂窝网络中基于流行度预测的缓存优化方法
CN113297152A (zh) * 2021-05-11 2021-08-24 国网河南省电力公司信息通信公司 一种电力物联网边缘服务器缓存更新的方法及装置
CN113395333B (zh) * 2021-05-31 2022-03-25 电子科技大学 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN113395333A (zh) * 2021-05-31 2021-09-14 电子科技大学 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN113301169B (zh) * 2021-07-23 2021-10-01 杭州雅观科技有限公司 一种基于动态移动装置行为预测的边缘转网方法
CN113301169A (zh) * 2021-07-23 2021-08-24 杭州雅观科技有限公司 一种基于动态移动装置行为预测的边缘转网方法
CN114172600A (zh) * 2021-12-03 2022-03-11 中国电信集团系统集成有限责任公司 一种传输链路自动算路方法及装置
CN115809147A (zh) * 2023-01-16 2023-03-17 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN115809147B (zh) * 2023-01-16 2023-04-25 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN116155991A (zh) * 2023-01-30 2023-05-23 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及系统
CN116155991B (zh) * 2023-01-30 2023-10-10 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Also Published As

Publication number Publication date
CN112218337B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
CN113114756B (zh) 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN112020103B (zh) 一种移动边缘云中的内容缓存部署方法
CN110213627A (zh) 基于多小区用户移动性的流媒体缓存分配装置及其工作方法
Huang et al. A services routing based caching scheme for cloud assisted CRNs
CN112995950B (zh) 一种车联网中基于深度强化学习的资源联合分配方法
AU2020103384A4 (en) Method for Constructing Energy-efficient Network Content Distribution Mechanism Based on Edge Intelligent Caches
CN108093435B (zh) 基于缓存流行内容的蜂窝下行链路网络能效优化系统及方法
CN111988796B (zh) 基于双模通信的台区信息采集业务带宽优化系统及方法
CN106791887B (zh) 无线网络中视频的分布式缓存和传输优化方法
Li et al. Deep reinforcement learning for cooperative edge caching in future mobile networks
CN108600998B (zh) 超密度蜂窝与d2d异构融合网络缓存优化决策方法
CN115665804B (zh) 一种协同无人机-智能车群的缓存优化方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN110113213B (zh) 一种基于云无线接入网架构的协作式缓存部署方法
CN113993168B (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
Dai et al. Proactive caching over cloud radio access network with user mobility and video segment popularity awared
Xiao et al. Transcoding-Enabled Cloud-Edge-Terminal Collaborative Video Caching in Heterogeneous IoT Networks: A Online Learning Approach with Time-Varying Information
CN108882269A (zh) 结合缓存技术的超密集网络小站开关方法
CN113159539A (zh) 多层边缘计算系统中联合绿色能源调度和动态任务分配方法
CN112911614A (zh) 基于动态请求d2d网络中的协作编码缓存方法
CN111447506A (zh) 云边环境下基于延迟和成本均衡的流媒体内容放置方法
CN111479312A (zh) 异构蜂窝网络内容缓存和基站休眠联合优化方法
CN113709853B (zh) 面向云边协同的网络内容传输方法、装置及存储介质
CN112954026B (zh) 一种基于边缘计算的多约束内容协作缓存优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant