CN113411826B - 一种基于注意力机制强化学习的边缘网络设备缓存方法 - Google Patents

一种基于注意力机制强化学习的边缘网络设备缓存方法 Download PDF

Info

Publication number
CN113411826B
CN113411826B CN202110672219.6A CN202110672219A CN113411826B CN 113411826 B CN113411826 B CN 113411826B CN 202110672219 A CN202110672219 A CN 202110672219A CN 113411826 B CN113411826 B CN 113411826B
Authority
CN
China
Prior art keywords
edge network
action
network device
representing
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110672219.6A
Other languages
English (en)
Other versions
CN113411826A (zh
Inventor
王晓飞
贾博森
赵益尉
李锐斌
王晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Cloud Computing Shanghai Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110672219.6A priority Critical patent/CN113411826B/zh
Publication of CN113411826A publication Critical patent/CN113411826A/zh
Application granted granted Critical
Publication of CN113411826B publication Critical patent/CN113411826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于注意力机制强化学习的边缘网络设备缓存方法,包括如下步骤:建立蜂窝网络模型,蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块;边缘网络设备接收所在区域内的用户设备发出的请求;每个边缘网络设备获取其它边缘网络设备的观测值;每个边缘网络设备依据缓存替换策略和观测值选取动作;边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新;根据目标函数对缓存替换策略进行优化。本发明可以减少从云数据中心重复下载文件的次数,降低延迟,提升网络服务质量与用户体验质量。

Description

一种基于注意力机制强化学习的边缘网络设备缓存方法
技术领域
本发明涉及边缘缓存与深度强化学习技术领域,特别是涉及一种基于注意力机制强化学习的边缘网络设备缓存方法。
背景技术
随着网络技术的发展和需求的激增,数据、应用程序的速度和吞吐量正在导致流量的飞速增长,这项挑战也促进了网络架构和先进通信技术的紧迫革命。移动边缘缓存(Mobile EdgeComputing,MEC)技术可以有效缓解移动网络运营商的流量压力,通过将内容存储在接近用户的基站或本地设备上,可以有效减少应用服务中的冗余数据传输延迟并提高服务质量。
在现实生活中,用户所处的场景多种多样。由于不同场景所提供的服务不同,因此各个基站缓存的内容存在很大差异。MEC技术可以有效地应对不同类型的边缘节点通信的高容量需求,但是,将所有的内容都存储在异构边缘网络中是不切实际的。因此,构建适当的边缘缓存策略以充分利用网络架构似乎是必然趋势。传统的高速缓存替换策略,例如最近最少使用算法(LRU)和先输入先输出算法(FIFO),都是基于静态规则,这类算法忽略了与整体的动态交互。随着人工智能的实质性突破,越来越多的研究人员利用动态自适应方法来设计边缘缓存方案,以期实现网络系统的整体意识,因此将缓存算法部署到位于互联网最末端的边缘系统非常重要。
发明内容
针对传统缓存替换策略未考量动态交互的技术问题,本发明提出一种基于注意力机制强化学习的边缘网络设备缓存方法,通过在行动者-评价者算法中引入注意力机制解决了多智能体边缘缓存问题。
一种基于注意力机制强化学习的边缘网络设备缓存方法,包括以下步骤:
S1,建立蜂窝网络模型,所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块,所述行动网络模块用于观察边缘网络设备的观测值,并根据观测值和缓存替换策略选取动作,所述评价网络模块利用注意力机制评估动作价值函数;
S2,边缘网络设备接收所在区域内的用户设备发出的请求;
S3,每个边缘网络设备获取其它边缘网络设备的观测值;
S4,每个边缘网络设备依据缓存替换策略和观测值选取动作;
S5,边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;
S6,根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新;
S7,根据目标函数对缓存替换策略进行优化。
在步骤S4中,所述缓存替换策略为
Figure BDA0003119158950000021
其中,ai表示第i个边缘网络设备的动作值,oi表示第i个边缘网络设备的观测值,θi表示第i个边缘网络设备的行动网络模块的参数。
在步骤S5中,所述动作是指缓存替换内容的编号,所述更新后的状态是指采取步骤S4的动作后边缘网络设备的缓存列表。
所述根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新,包括如下步骤:
S6.1,根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值
Figure BDA0003119158950000022
其中,o1...e表示所有边缘网络设备的观测值,a1...e表示所有边缘网络设备的动作值,Ψi表示第i个边缘网络设备的评价网络模块的参数;
S6.2,基于每个边缘网络设备的当前缓存替换策略计算边缘网络设备的第一预采取动作值
Figure BDA0003119158950000023
其中,o'i表示边缘网络设备若采取第一预采取动作所对应的观测值,θi表示第i个边缘网络设备的行动网络模块的参数;
S6.3,利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值
Figure BDA0003119158950000024
其中,o'1...e表示所有边缘网络设备若采取第一预动作对应的观测值,a'1...e表示所有边缘网络设备的第一预动作值;
S6.4,根据第一损失函数利用梯度下降更新评价网络模块;
S6.5,基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值
Figure BDA0003119158950000025
其中,o”i表示所有边缘网络设备若采取第二预动作对应的观测值;
S6.6,利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值
Figure BDA0003119158950000026
其中,o”1...e表示所有边缘网络设备若采取第二预动作对应的观测值,a”1...e表示所有边缘网络设备的第二预动作值,
Figure BDA0003119158950000027
表示更新后的评价网络模块的参数;
S6.7,对行动网络模块的梯度进行更新以更新行动网络模块。
在步骤S6.1中,所述动作价值函数的计算公式为:
Figure BDA0003119158950000031
式中,o表示当前边缘网络设备与其邻接边缘网络设备的观测值,a表示当前边缘网络设备与其邻接边缘网络设备的动作值,σi为多层感知器,ei表示嵌入向量,Atti表示合作单元;
所述合作单元Atti的计算公式为:
Figure BDA0003119158950000032
式中,ζj表示具有嵌入向量ei和嵌入向量ej输入的影响单元,υj是通过嵌入向量ej线性变换得到。
在步骤S6.4中,所述第一损失函数的计算公式为:
Figure BDA0003119158950000033
式中,yi表示第一预采取动作的价值,L(ψi)表示第一损失函数,
Figure BDA0003119158950000034
表示当前边缘网络设备的已采取动作的价值;
所述预采取动作的价值yi的计算公式为:
Figure BDA0003119158950000035
式中,ri表示当前已获得的行动奖励,γ表示折扣率,ρ表示平衡系数。
在步骤S6.7中,所述对行动网络模块的梯度进行更新的公式为:
Figure BDA0003119158950000036
式中,
Figure BDA0003119158950000037
表示缓存替换策略,
Figure BDA0003119158950000038
表示优势函数,
Figure BDA0003119158950000039
为整体损失函数。
在步骤S7中,所述目标函数的公式为:
maxG;
目标函数的约束条件:
Figure BDA00031191589500000310
xreq(u)i∈{0,1};
h(Ei,Ej)≥0;
υ,μ,δ≥0;
式中,G表示整个模型的奖励,υ、μ、δ均为参数,h(Ei,Ej)表示边缘网络设备Ei与边缘网络设备Ej之间的距离,且i,j∈{1,2,...,e},若xreq(u)i=1代表用户u发出的请求已被缓存在边缘网络设备Ei中,若xreq(u)i=0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理,ni表示边缘网络设备Ei总缓存容量的最大值,
Figure BDA0003119158950000041
表示设备Ei中单个缓存内容的大小。
所述整个模型的奖励G的计算公式为:
Figure BDA0003119158950000042
式中,Ei表示第i个边缘网络设备,Ui表示第i个边缘网络设备服务范围内的用户列表,若xreq(u)i=1代表用户u发出的请求已被缓存在边缘网络设备Ei中,若xreq(u)i=0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理,
Figure BDA0003119158950000043
表示边缘网络设备与核心网络之间的回程链路的传输消耗,E表示边缘网络设备的集合;
其中,Δ的计算公式为:
Figure BDA0003119158950000044
式中,
Figure BDA0003119158950000045
表示边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗,xreq(u)j表示用户u发出的请求已被缓存在其它边缘网络设备的概率,
Figure BDA0003119158950000046
表示用户u向边缘网络设备发送请求req(u)时,请求req(u)未被当前边缘网络设备缓存,并决定替换缓存内容f时的缓存替换消耗,|E|表示边缘网络设备的数量,
Figure BDA0003119158950000047
代表除去边缘网络设备Ei,用户u请求的内容在其他某个边缘网络设备中有缓存,
Figure BDA0003119158950000048
代表在所有边缘网络设备中用户u所请求的内容均未被缓存。
所述边缘网络设备与核心网络之间的回程链路的传输消耗
Figure BDA0003119158950000049
的计算公式为:
Figure BDA00031191589500000410
式中,
Figure BDA00031191589500000411
表示回程链路的单元传输消耗,ωEh表示请求内容未被边缘网络设备缓存的概率;
所述边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗的计算公式为:
Figure BDA00031191589500000412
式中,ν表示参数,且ν为正常数,h(Ei,Ej)表示边缘网络设备Ei与边缘网络设备Ej之间的距离,且i,j∈{1,2,...,e};
所述替换缓存内容时的缓存替换消耗
Figure BDA0003119158950000051
的计算公式为:
Figure BDA0003119158950000052
式中,δ表示参数,且δ为正常数,cr表示被替换缓存内容f的大小,cc表示新缓存内容的大小
本发明的有益效果:
本发明采用一种注意力机制来实现具有周边环境信息感知的边缘网络设备之间的自适应协作,充分利用边缘网络设备之间的通信以及邻接边缘网络设备产生的影响来优化多智能体之间的协同,以使内容请求过程的传输成本最小化;可以应用在同构网络与异构网络场景中,通过与其他主流算法,例如传统的行动者-评价者算法、FIFO算法、LRU算法等,在命中率,流量卸载率和平均延迟三项指标方面进行对比,不仅验证了方案的可行性,也验证了其有效性,并且,它在异构和同构的场景下都能达到一样好的性能;可以显著优化边缘网络设备之间的传输,从而减少从云数据中心重复下载文件的次数,一方面,可以降低延迟,提升网络服务质量与用户体验质量,另一方面,还可以最大程度地利用边缘网络设备的存储功能,进一步降低主干网络压力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为边缘缓存架构的示意图。
图2为用户、边缘网络设备、核心网络之间损耗的示意图。
图3为行动网络模块与评价网络模块的信号流向图。
图4为引入注意力机制的行动评价算法的示意图。
图5为在命中率方面本发明与其它算法的对比示意图。
图6为在平均传输延时方面本发明与其它算法的对比示意图。
图7为在流量卸载率方面本发明与其它算法的对比示意图。
图8为在异构和同构的场景下本发明的缓存大小与命中率的变化示意图。
图9为在异构和同构的场景下本发明的缓存大小与平均传输延时的变化示意图。
图10为在异构和同构的场景下本发明的缓存大小与流量卸载率的变化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。该机制实际上就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。应用时,根据具体任务目标,对关注的方向和加权模型进行调整,也就是在神经网络的隐藏层,增加注意力机制的加权,使不符合注意力模型的内容弱化或者遗忘。引入的目的是希望智能体在学习其他智能体策略的时候,能够有选择性的关注更有利于自己获取更大回报的信息进行学习,而不是无差别的完全学习其他智能体的所有信息。注意力机制本质上是让每个智能体能够查询到其他智能体的观测信息和动作信息,并将这些信息通过重要性的大小整合到自己的动作值函数估计中,它擅长于发现对象之间的潜在影响以及这些影响在不同角度下的不同比例。在实际应用中,一般是在原有模型基础上引入该机制,可以达到提高学习效率与信息准确度,简化模型的效果。
深度强化学习(DRL,Deep Reinforcement Learning)是一种融合了强化学习与深度学习的技术。强化学习强调智能体与环境的交互进行学习,利用反馈的奖励来训练智能体,实现决策的优化;而深度学习强调通过多层感知机和非线性的激活函数,结合低层特征并将其转化为易于区分的高层输入,以发现数据的分布式特征表示。因此,所谓二者的结合体,深度强化学习使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。它常被用于探索出一种通适用于解决复杂问题的资源分配策略。深度强化学习算法按照策略更新方式的不同,可以分为基于值的和基于策略的两类方法。基于值的方法通过估算每个状态-动作对的值函数Q(s,a)来寻找最佳策略,其中典型的算法就是Deep Q-Network(DQN);而基于策略的方法则不同,这种算法不需要估算价值函数,而是直接用神经网络去拟合策略函数,通过训练去更新策略参数,直接生成最佳策略,这其中有代表性的则是策略梯度。
异构场景中的缓存替换存在着一些挑战:(1)现实世界中不可预测的时间和空间因素限制了边缘服务器的效果。(2)异构边缘缓存具有挑战性,即适应性条件包括场景多样性和动态用户行为。当本地优化达到最佳时,从全局角度来看这是不公平的,需要一种机制来适应和利用这种不平衡的优化。(3)另一个问题是如何在异构边缘缓存架构中构建一个辅助调度程序,并综合考虑联合调优与上下文信息混合在一起的局部参数。
传统多智能体行动者-评价者模型中,任意节点单独训练的评价网络,以同等重要性将相邻智能体所存有的状态值和动作值作为输入。为实现边缘缓存设备的自适应协作,我们将注意力机制引入节点的评价网络。应用注意力机制的实质,是利用权重系数实现模型选择性的接收来自相邻节点的信息,让模型对重要信息重点关注并充分学习,从而在保证学习效率和策略稳定性的同时达到邻接节点信息的选择性感知。
一种基于注意力机制强化学习的边缘网络设备缓存方法,包括如下步骤:
S1,建立蜂窝网络模型,所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块,所述行动网络模块用于观察边缘网络设备的观测值,并根据观测值和缓存替换策略选取动作;所述评价网络模块利用注意力机制评估动作价值函数,并根据动作价值函数对边缘网络设备的缓存替换策略进行优化;
在所述的蜂窝网络模型中,如图1所示,边缘网络设备通过回程链路与核心网络连接,且边缘网络设备通过蜂窝链路与所在服务区域内的用户设备连接;所述边缘网络设备之间通过单元协同链路连接,用户设备首先通过蜂窝链路向边缘网络设备发送请求,若请求的内容存在于边缘网络设备当前的缓存中,用户设备直接从边缘网络设备获取请求内容,若请求的内容没有存在在边缘网络设备当前的缓存中,用户设备通过单元协同链路从邻接边缘网络设备获取请求内容,若请求的内容也没有存在于邻接边缘网络设备的缓存中,则该请求会通过边缘网络设备发送给核心网络。
边缘网络设备之间同时存在竞争与合作;每个边缘网络设备的用户具有不同的偏好和兴趣,同时,不同的地理区域可能具有不同的社交功能,提供异构服务,因此地理位置不同、社会分工不同的边缘网络设备对其它设备产生的影响也是不同的。如图3所示,对于当前边缘网络设备E1,边缘网络设备E2对其具有极高的影响,而边缘网络设备Ee则对其具有微小的辅助,因此从其他边缘网络设备学习也可以帮助当前边缘网络设备建立自己的缓存策略。
由E={E1,E2...,Ee}表示边缘网络设备的集合,N={N1,N2...,Ne}表示边缘网络设备的缓存容量的列表,Ne表示第e个边缘网络设备Ee的缓存容量。用户设备随机分布在每个边缘网络设备的覆盖范围内,所有边缘网络设备服务范围内的用户列表由U={U1,U2...,Ue}表示,其中,Ue表示边缘网络设备Ee覆盖范围内的用户列表。边缘网络设备Ee缓存的内容由Ce={c1,c2…,cm}表示,其中,cm代表缓存内容的编号。C={C1,C2…,Ce}表示所有边缘网络设备缓存内容的集合。核心网络的内容库中所存储的文件由F={f1,f2,...,fM}表示,即为所有可能被请求的内容,其中,fM表示内容库中所存储的第M个请求,且m≤M。
边缘网络设备的状态定义为S={S1,S2…,Se},所述状态是指边缘网络设备当前的缓存列表,边缘网络设备的观测值包括边缘网络设备本地缓存状态也即缓存文件的序号列表、当前到达的请求以及相邻设备的观测值。边缘网络设备Ee的所有动作值为Ae,所有边缘网络设备的动作空间由Ac={Ac1,Ac2…,Ace}表示。
S2,边缘网络设备通过蜂窝链路接收所在区域内的用户设备发出的请求;
由Rt={r1,r2…,re}表示所有用户设备在t时间片所发出的请求列表,其中,re表示第e个边缘网络设备所接收的请求列表。
S3,每个边缘网络设备通过单元协同链路获取其它边缘网络设备的观测值;
O={o1,o2…,oe},其中,oe表示第e个边缘网络设备的观测值,O表示所有边缘网络设备的观测值的集合。
S4,边缘网络设备依据缓存替换策略选取动作,所述缓存替换策略为
Figure BDA0003119158950000081
其中,ai表示第i个边缘网络设备的一个动作值,oi表示第i个边缘网络设备的观测值,θi表示第i个边缘网络设备的行动网络模块的参数;
所述选取动作是指确定边缘网络设备上被替换缓存内容的编号,也即是当所有的边缘网络设备均未存储用户设备所请求的内容时,边缘网络设备从核心网络获取请求内容后,将边缘网络设备中对应编号上的缓存内容替换为从核心网络获取的请求内容。若无需进行替换,也即用户设备请求的内容存在于所述区域内的边缘网络设备上,用户设备可以直接从边缘网络设备获取请求内容,或者用户设备请求的内容未存在于所述区域内的边缘网络设备上,但存在于邻接边缘网络设备上,用户设备可以从邻接边缘网络设备获取请求内容,则缓存替换内容的编号采用负数表示。边缘网络设备自身决定是否进行缓存替换,可操作的对象包括所有当前已缓存的内容,每个边缘网络设备的行动网络模块基于本地的观测值选择动作。通过缓存替换策略可以得到当前参数下的行动网络模块采取各种动作的概率,依据此概率,当前边缘网络设备执行动作并将自身的状态和动作发送到邻接边缘网络设备。
S5,每个边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;
所述状态是指采取步骤S4的动作后边缘网络设备的缓存列表,动作具体指缓存替换内容的编号,若不替换则可以用一个负数。
S6,如图3所示,根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新,包括如下步骤:
S6.1,如图4所示,根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值
Figure BDA0003119158950000082
其中,o1...e表示所有边缘网络设备的观测值,a1...e表示所有边缘网络设备的动作值,Ψi表示第i个边缘网络设备的评价网络模块的参数;
利用动作价值函数可以计算各个边缘网络设备已采取动作的价值,所述动作价值函数的计算公式为:
Figure BDA0003119158950000091
式中,o表示当前边缘网络设备与其邻接边缘网络设备的观测值,a表示当前边缘网络设备与其邻接边缘网络设备的动作值,σi为多层感知器,ei表示嵌入向量,嵌入向量ei是设备Ei的观测值和动作值通过嵌入函数转化得到,且嵌入向量ei通过线性变换转换为qi、ki和υi,Atti表示合作单元;
所述合作单元Atti是通过注意力机制求得的加权总和,替代了其他设备产生的影响,其计算公式为:
Figure BDA0003119158950000092
式中,ζj表示具有嵌入向量ei和嵌入向量ej输入的影响单元,用来衡量嵌入向量ei和嵌入向量ej的匹配程度即相似性,υj是通过嵌入向量ej线性变换得到。
所述影响单元ζj的计算公式为:
Figure BDA0003119158950000093
式中,ej、el均表示嵌入向量,嵌入向量ej通过线性变换转换为qj、kj和υj,嵌入向量el通过线性变换转换为ql、kl和υl
S6.2,基于每个边缘网络设备的当前行动网络模块,也即当前的缓存替换策略,计算边缘网络设备的第一预采取动作值
Figure BDA0003119158950000094
其中,o'i表示边缘网络设备若采取预动作所对应的观测值;
S6.3,利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值
Figure BDA0003119158950000095
其中,o'1...e表示所有边缘网络设备若采取第一预动作对应的观测值,a'1...e表示所有边缘网络设备的第一预动作值;
S6.4,根据第一损失函数利用梯度下降更新评价网络模块;
所述第一损失函数的计算公式定义为:
Figure BDA0003119158950000096
式中,L(ψi)表示第一损失函数,yi表示第一预采取动作的价值,
Figure BDA0003119158950000097
表示当前边缘网络设备的已采取动作的价值;
所述第一预采取动作的价值yi的计算公式为:
Figure BDA0003119158950000101
式中,ri表示当前已获得的行动奖励,γ表示折扣率,ρ表示平衡系数,
Figure BDA0003119158950000102
表示第一预采取动作的价值,
Figure BDA0003119158950000103
表示依据当前行动网络参数得出的预采取动作的动作值。
所述行动奖励ri通过以下方式计算:因为请求核心网络造成的消耗很大,当从邻接边缘网络设备可以获取被请求的内容时,这种情况下的行动奖励被定义为请求核心网络的消耗与请求邻接边缘网络设备并进行缓存替换的消耗之差;当用户可以从当前边缘网络设备直接获取请求内容时,这种情况下的行动奖励被定义为核心网络请求所产生的消耗;当请求内容均未存在与当前边缘网络设备和邻接边缘网络设备需请求核心网络进行替换时,这种情况下不设行动奖励。
S6.5,基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值
Figure BDA0003119158950000104
其中,o”i表示所有边缘网络设备若采取第二预动作对应的观测值;
S6.6,利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值
Figure BDA0003119158950000105
其中,o”1...e表示所有边缘网络设备若采取第二预动作对应的观测值,a”1...e表示所有边缘网络设备的第二预动作值,
Figure BDA0003119158950000106
表示更新后的评价网络模块的参数;
S6.7,对行动网络模块的梯度进行更新以更新行动网络模块。
根据更新后的动作价值函数对缓存替换策略的梯度进行更新,以对整体缓存替换策略进行优化;
行动网络模块的更新梯度计算方法为:
Figure BDA0003119158950000107
式中,
Figure BDA0003119158950000108
表示优势函数,
Figure BDA0003119158950000109
为整体损失函数,它基于反事实基线思想;
反事实基线的思想基于COMA算法,该思想主要是通过引入优势函数,来解决多智能体环境中“信用”分配问题,即如何分配奖励进而鼓励那些对整个多智能体任务更有帮助的单智能体,进而促进他们更好地学习优秀的策略。反事实基线的核心思想是,评价一个智能体的动作贡献时,可以把这个智能体的动作换成一个默认的动作,观察当前的动作跟默认的动作相比使得总体的得分增加还是减少,如果增加,说明智能体的当前动作比默认动作好,反之则说明智能体当前动作比默认动作差。而这个默认的动作就称为基线。
该思想的核心的问题是默认动作如何选择。如果选择默认动作需要依靠一套额外的网络进行评估,这无疑增加了整个训练网络难度。而COMA算法中提出了利用当前的策略,以及当前的行为值函数对当前智能体的策略求解边缘分布来计算这个基线。这种方式可以避免设计额外的默认动作和额外的模拟计算。
优势函数是在加入注意力机制的评价网络中计算得出的,以获取与其他动作相比当前动作的优势,即为已采取动作相较其他动作的优势值,应用于个体策略的梯度更新。优势函数的定义如下:
Figure BDA0003119158950000111
式中,
Figure BDA0003119158950000112
代表基线,意义是该状态下所有动作价值函数关于动作概率的平均值,
Figure BDA0003119158950000113
表示采取动作的价值,两者之差体现出已采取动作的优势,
Figure BDA0003119158950000114
Figure BDA0003119158950000115
分别表示各种可能动作的概率和价值。
S7,根据目标函数对缓存替换策略进行优化;
所述目标函数的公式为:
maxG;
目标函数的约束条件:
Figure BDA0003119158950000116
xreq(u)i∈{0,1};
h(Ei,Ej)≥0;
υ,μ,δ≥0;
式中,G表示整个模型的奖励,ni表示设备Ei总缓存容量的最大值,
Figure BDA0003119158950000117
表示边缘网络设备Ei中单个缓存内容的大小,且z为正整数,υ、μ、δ均为参数,h(Ei,Ej)表示边缘网络设备Ei与边缘网络设备Ej之间的距离,且i,j∈{1,2,...,e},若xreq(u)i=1代表用户u发出的请求已被缓存在边缘网络设备Ei中,若xreq(u)i=0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理。
所述整体系统的奖励被G的计算公式为:
Figure BDA0003119158950000118
式中,Ei表示第i个边缘网络设备,Ui表示第i个边缘网络设备服务范围内的用户列表,
Figure BDA0003119158950000119
表示边缘网络设备与核心网络之间的回程链路的传输消耗;
其中,Δ被定义为:
Figure BDA0003119158950000121
式中,
Figure BDA0003119158950000122
表示边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗,若xreq(u)j=1代表用户u请求的内容在当前边缘网络设备Ej的缓存中,可直接返回给用户,若xreq(u)j=0代表用户u发出的请求需要被其他边缘网络设备或核心网络处理,
Figure BDA0003119158950000123
表示用户u向边缘网络设备发送请求req(u)时,请求req(u)未被当前边缘网络设备缓存,并决定替换缓存内容f时的缓存替换消耗,|E|表示边缘网络设备的数量,
Figure BDA0003119158950000124
代表除去边缘网络设备Ei,用户u请求的内容在其他某个边缘网络设备中有缓存,
Figure BDA0003119158950000125
代表在所有边缘网络设备中用户u所请求的内容均未被缓存。
所述边缘网络设备与核心网络之间的回程链路的传输消耗
Figure BDA0003119158950000126
的计算公式为:
Figure BDA0003119158950000127
式中,
Figure BDA0003119158950000128
表示回程链路的单元传输消耗,ωEh表示请求内容未被边缘网络设备缓存的概率。
所述请求内容未被边缘网络设备缓存的概率ωEh可以基于文件的流行度计算获取,文件的流行度分布遵循夫-曼德布洛特(MZipf)模型,对比其它的分布模型,在缓存机制中,MZipf可以合理地估计内容的流行度。
所述流行度ωf的计算公式为:
ωf=∑f∈F(Rf+q)α/(Ri+q)α
式中,α表示偏度因子,q表示平稳因子,Ri为文件fi的流行量,Rf表示网络中所有文件各自的流行量,也即文件被请求的次数。
所述边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗的计算公式为:
Figure BDA0003119158950000129
式中,ν表示参数,且ν为正常数。
所述替换缓存内容时的缓存替换消耗
Figure BDA00031191589500001210
的计算公式为:
Figure BDA0003119158950000131
式中,δ表示参数,且δ为正常数,cr表示被替换缓存内容f的大小,cc表示新缓存内容的大小。
利用传输消耗和缓存替换消耗来评估缓存策略的表现。如图2所示,如果被用户u请求的内容f已经缓存在边缘网络设备Ei中,边缘网络设备会立即响应用户并发送数据包,其传输消耗由
Figure BDA0003119158950000132
表示。但如果用户的请求不能被满足,那么请求将被发送至核心网络或其他边缘网络设备。如果邻接设备的缓存可以满足此请求,则在这种情况下总的传输消耗为传输消耗
Figure BDA0003119158950000133
与设备传输消耗
Figure BDA0003119158950000134
消耗之和。当边缘服务网络设备不能满足请求时,请求会被发送给核心网络,则在这种情况下总的传输消耗则为回程链路的传输消耗
Figure BDA0003119158950000135
缓存替换消耗
Figure BDA0003119158950000136
传输消耗
Figure BDA0003119158950000137
之和。
图5至图10为仿真实验的结果。其中,图5至图7分别展示了本专利涉及算法与其他算法在不同性能指标上的对比,图8至图10展示了本专利涉及算法在同构以及异构场景下的性能的对比。三种性能指标分别为命中率、平均传输延迟以及流量卸载率。命中率是命中次数和总请求数的比;平均传输延迟是根据核心网络与边缘网络设备之间,各个设备之间以及用户与设备之间的延迟计算的;流量卸载率是卸载流量与总流量之间的比。
为了体现本专利阐述的NAEC算法(Neighboring-Aware Edge Caching,邻接感知边缘缓存算法)的改进效果,我们选取了其他5种常见的缓存替换算法用于比较,分别为AC(Actor-Critic,行动者-评价者算法)、FIFO(First Input First Output,先输入先输出算法)、LFU(Least Frequently Used,最不经常使用算法)、LRU(Least Recently Used,最近最少使用算法)和LFUDA(LFU with dynamic aging,引入时间因子的最不经常使用算法)。
我们在缓存大小不同的多种情况下评估网络性能。图5、图6和图7的比较结果表明,本专利涉及算法对比其他算法,命中率和流量卸载率显著提高,平均传输延迟上显著降低。并且从比较结果看,随着缓存空间的增加,方法本身的效果也显著提高,尤其当缓存空间不足时,算法性能优势更加明显。图8、图9和图10的比较结果表明,面对异构场景,我们的方法可以表现出更加良好的适应性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,包括如下步骤:
S1,建立蜂窝网络模型,所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块,所述行动网络模块用于观察边缘网络设备的观测值,并根据观测值和缓存替换策略选取动作,所述评价网络模块利用注意力机制评估动作价值函数;
S2,边缘网络设备接收所在区域内的用户设备发出的请求;
S3,每个边缘网络设备获取其它边缘网络设备的观测值;
S4,每个边缘网络设备依据缓存替换策略和观测值选取动作;
所述缓存替换策略为
Figure FDA0003594192610000011
其中,ai表示第i个边缘网络设备的动作值,oi表示第i个边缘网络设备的观测值,θi表示第i个边缘网络设备的行动网络模块的参数;
S5,边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;
所述动作是指缓存替换内容的编号,所述更新后的状态是指采取步骤S4的动作后边缘网络设备的缓存列表;
S6,根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新,包括如下步骤:
S6.1,根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值
Figure FDA0003594192610000012
其中,o1...e表示所有边缘网络设备的观测值,a1...e表示所有边缘网络设备的动作值,Ψi表示第i个边缘网络设备的评价网络模块的参数;
所述动作价值函数的计算公式为:
Figure FDA0003594192610000013
式中,o表示当前边缘网络设备与其邻接边缘网络设备的观测值,a表示当前边缘网络设备与其邻接边缘网络设备的动作值,σi为多层感知器,ei表示嵌入向量,Atti表示合作单元;
所述合作单元Atti的计算公式为:
Figure FDA0003594192610000014
式中,ζj表示具有嵌入向量ei和嵌入向量ej输入的影响单元,υj是通过嵌入向量ej线性变换得到;
S6.2,基于每个边缘网络设备的当前缓存替换策略计算边缘网络设备的第一预采取动作值
Figure FDA0003594192610000021
其中,o′i表示边缘网络设备若采取第一预采取动作所对应的观测值;
S6.3,利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值
Figure FDA0003594192610000022
其中,o′1...e表示所有边缘网络设备若采取第一预动作对应的观测值,a′1...e表示所有边缘网络设备的第一预动作值;
S6.4,根据第一损失函数利用梯度下降更新评价网络模块;
所述第一损失函数的计算公式为:
Figure FDA0003594192610000023
式中,yi表示第一预采取动作的价值,L(ψi)表示第一损失函数,
Figure FDA0003594192610000024
表示当前边缘网络设备的已采取动作的价值;
所述预采取动作的价值yi的计算公式为:
Figure FDA0003594192610000025
式中,ri表示当前已获得的行动奖励,γ表示折扣率,ρ表示平衡系数;
S6.5,基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值
Figure FDA0003594192610000026
其中,o″i表示所有边缘网络设备若采取第二预动作对应的观测值;
S6.6,利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值
Figure FDA0003594192610000027
其中,o″1...e表示所有边缘网络设备若采取第二预动作对应的观测值,a″1...e表示所有边缘网络设备的第二预动作值,
Figure FDA0003594192610000028
表示更新后的评价网络模块的参数;
S6.7,对行动网络模块的梯度进行更新以更新行动网络模块;
所述对行动网络模块的梯度进行更新的公式为:
Figure FDA0003594192610000029
式中,
Figure FDA00035941926100000210
表示缓存替换策略,
Figure FDA00035941926100000211
表示优势函数,
Figure FDA00035941926100000212
为整体损失函数;
S7,根据目标函数对缓存替换策略进行优化,所述目标函数的公式为:
max G;
目标函数的约束条件:
Figure FDA00035941926100000213
Figure FDA00035941926100000214
h(Ei,Ej)≥0;
υ,δ≥0;
式中,G表示整个模型的奖励,υ、δ均为参数,h(Ei,Ej)表示边缘网络设备Ei与边缘网络设备Ej之间的距离,且i,j∈{1,2,...,e},若xreq(u)i=1代表用户u发出的请求已被缓存在边缘网络设备Ei中,若xreq(u)i=0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理,ni表示边缘网络设备Ei总缓存容量的最大值,
Figure FDA0003594192610000031
表示边缘网络设备Ei中单个缓存内容的大小;
所述整个模型的奖励G的计算公式为:
Figure FDA0003594192610000032
式中,Ei表示第i个边缘网络设备,Ui表示第i个边缘网络设备服务范围内的用户列表,
Figure FDA0003594192610000033
表示边缘网络设备与核心网络之间的回程链路的传输消耗,E表示边缘网络设备的集合;
其中,Δ的计算公式为:
Figure FDA0003594192610000034
式中,
Figure FDA0003594192610000035
表示边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗,xreq(u)j表示用户u发出的请求已被缓存在其它边缘网络设备的概率,
Figure FDA0003594192610000036
表示用户u向边缘网络设备发送请求req(u)时,请求req(u)未被当前边缘网络设备缓存,并决定替换缓存内容f时的缓存替换消耗,|E|表示边缘网络设备的数量,
Figure FDA0003594192610000037
代表除去边缘网络设备Ei,用户u请求的内容在其他某个边缘网络设备中有缓存,
Figure FDA0003594192610000038
代表在所有边缘网络设备中用户u所请求的内容均未被缓存;
所述边缘网络设备与核心网络之间的回程链路的传输消耗
Figure FDA0003594192610000039
的计算公式为:
Figure FDA00035941926100000310
式中,
Figure FDA00035941926100000311
表示回程链路的单元传输消耗,ωEh表示请求内容未被边缘网络设备缓存的概率;
所述边缘网络设备Ei与边缘网络设备Ej之间的设备传输消耗
Figure FDA00035941926100000312
的计算公式为:
Figure FDA0003594192610000041
式中,υ表示参数,且υ为正常数;
所述替换缓存内容时的缓存替换消耗
Figure FDA0003594192610000042
的计算公式为:
Figure FDA0003594192610000043
式中,δ表示参数,且δ为正常数,cr表示被替换缓存内容f的大小,cc表示新缓存内容的大小。
CN202110672219.6A 2021-06-17 2021-06-17 一种基于注意力机制强化学习的边缘网络设备缓存方法 Active CN113411826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110672219.6A CN113411826B (zh) 2021-06-17 2021-06-17 一种基于注意力机制强化学习的边缘网络设备缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110672219.6A CN113411826B (zh) 2021-06-17 2021-06-17 一种基于注意力机制强化学习的边缘网络设备缓存方法

Publications (2)

Publication Number Publication Date
CN113411826A CN113411826A (zh) 2021-09-17
CN113411826B true CN113411826B (zh) 2022-05-20

Family

ID=77684774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110672219.6A Active CN113411826B (zh) 2021-06-17 2021-06-17 一种基于注意力机制强化学习的边缘网络设备缓存方法

Country Status (1)

Country Link
CN (1) CN113411826B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946423B (zh) * 2021-10-18 2024-04-19 天津大学 基于图注意力网络的多任务边缘计算调度优化方法
CN116996921B (zh) * 2023-09-27 2024-01-02 香港中文大学(深圳) 一种基于元强化学习的全网多业务联合优化方法
CN117938669B (zh) * 2024-03-25 2024-06-18 贵州大学 一种面向6g普惠智能服务的网络功能链自适应编排方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109362064A (zh) * 2018-09-14 2019-02-19 重庆邮电大学 在移动边缘计算网络中基于mec的任务缓存分配策略

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109362064A (zh) * 2018-09-14 2019-02-19 重庆邮电大学 在移动边缘计算网络中基于mec的任务缓存分配策略

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Attention-Weighted Federated Deep Reinforcement Learning for Device-to-Device Assisted Heterogeneous Collaborative Edge Caching";xiaofei wang;《 IEEE Journal on Selected Areas in Communications 》;20201109;1 *

Also Published As

Publication number Publication date
CN113411826A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113411826B (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN111835827B (zh) 物联网边缘计算任务卸载方法及系统
CN111901392B (zh) 一种面向移动边缘计算的内容部署与分发方法及系统
CN111726811B (zh) 一种用于认知无线网络的切片资源分配方法及系统
CN112601197A (zh) 一种基于非正交多址的车联网络中资源优化方法
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN115065683B (zh) 基于车辆聚类的车辆边缘网络任务分配卸载方法
CN114265631A (zh) 一种基于联邦元学习的移动边缘计算智能卸载方法及装置
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN113873534A (zh) 一种雾计算中区块链协助的联邦学习主动内容缓存方法
CN116361009A (zh) 一种mec计算卸载、资源分配及缓存联合优化方法
CN109951317B (zh) 一种基于用户驱动的流行度感知模型的缓存替换方法
CN116489712A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116996938A (zh) 车联网任务卸载方法、终端设备及存储介质
CN113672819B (zh) 一种基于推荐感知和协作边缘缓存的内容请求处理系统
Gao et al. Joint computing, pushing, and caching optimization for mobile edge computing networks via soft actor-critic learning
CN118034809A (zh) 一种基于边缘计算场景下的无人机任务卸载方法和系统
CN117149416A (zh) 一种基于图神经网络的移动性卸载方法
CN113115362A (zh) 协同边缘缓存方法及装置
CN117082470A (zh) 基于noma-mec系统的车联网任务卸载和资源分配方法
CN116744364A (zh) 基于dqn的多边缘节点系统联合计算卸载和资源分配方法
CN113766540B (zh) 低时延的网络内容传输方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Xiaofei

Inventor after: Jia Bosen

Inventor after: Zhao Yiwei

Inventor after: Li Ruibin

Inventor after: Wang Chenyang

Inventor before: Wang Xiaofei

Inventor before: Jia Bosen

Inventor before: Zhao Yiwei

Inventor before: Li Ruibin

Inventor before: Wang Chenyang

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230506

Address after: Room 801, No. 2, Boyun Road, Free Trade Pilot Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Pioneer Cloud Computing (Shanghai) Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University