CN116362345A - 基于多智能体强化学习和联邦学习的边缘缓存方法及系统 - Google Patents

基于多智能体强化学习和联邦学习的边缘缓存方法及系统 Download PDF

Info

Publication number
CN116362345A
CN116362345A CN202310134885.3A CN202310134885A CN116362345A CN 116362345 A CN116362345 A CN 116362345A CN 202310134885 A CN202310134885 A CN 202310134885A CN 116362345 A CN116362345 A CN 116362345A
Authority
CN
China
Prior art keywords
sbs
content
model
local
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310134885.3A
Other languages
English (en)
Inventor
吴琼
赵宇
汪文华
李正权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310134885.3A priority Critical patent/CN116362345A/zh
Publication of CN116362345A publication Critical patent/CN116362345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统,该方法包括:构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整SBS本地缓存的流行的内容。本发明SBS可以预测自己覆盖范围内的内容流行度;并可以有效的调整SBSs本地缓存的流行的内容,进而实现了有效利用分布式边缘缓存。

Description

基于多智能体强化学习和联邦学习的边缘缓存方法及系统
技术领域
本发明涉及数据缓存技术领域,尤其涉及一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统。
背景技术
近年来,随着智能设备普及率的提高,移动数据流量空前增长,这给无线网络带来了沉重的流量负担。因此,无线网络可能变得非常拥挤,很难以令人满意的服务质量满足用户设备(User Equipments,UEs)的请求。为了应对这一挑战,边缘缓存被提出为下一代网络通信的一种有前途的解决方法。边缘缓存可以通过在无线边缘节点(例如,小型基站(small-cell base stations,SBSs))中赋予缓存单元,UEs可以在附近预取流行的内容。随后,缓存的内容能够在前端和后端链路中无重复传输的情况下交付给UE。此过程显著降低了流量负载,缓解了网络拥塞,减少了延迟,从而提高了系统性能。
由于每个UE的独特的偏好,不同SBSs中的内容流行度可能会呈现出令人惊讶的差异性。这种情况下要求每个SBS预测自己覆盖范围内的内容流行度。机器学习(MachineLearning,ML)可以通过训练用户数据来提取隐藏特征,从而有效预测流行的内容。大多数机器学习ML算法以集中的方式训练模型,其中多个UEs生成的数据必须发送到无线边缘节点进行分析。这些生成的数据可能涉及UE的个人敏感信息。不仅如此,随着SBSs覆盖范围内UEs数量的增长,UEs生成的数据也会增加。由于产生的高计算量和通信成本,集中式机器学习ML算法可能难以处理此类数据。联邦深度学习(Federated Deep Learning,FDL)已经成为一种潜在可行的解决方法。
此外,在SBS的存储容量有限时,每个SBS预测完自己覆盖范围内的内容流行度后,不同的SBSs预测的流行的内容分别缓存在哪个SBS将称为一个难题。缓存操作的维度随着SBS和内容的数量而增加,这不可避免地增加了在整个系统中缓存问题的复杂性,这使得我们很难协调下一代网络中的SBS缓存,以有效利用分布式边缘缓存。
发明内容
为此,本发明实施例提供了一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统,用于解决现有技术中难以协调下一代网络中的SBS缓存,以有效利用分布式边缘缓存的问题。
为此,本发明实施例提供一种基于多智能体强化学习和联邦学习的边缘缓存方法,该方法包括:
构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。
优选地,构建包括状态、动作、奖励和策略的MADRL框架,具体包括:
状态:在时隙t,SBS b的本地状态
Figure BDA0004085112860000031
定义为/>
Figure BDA0004085112860000032
系统的状态定义为
Figure BDA0004085112860000033
其中,/>
Figure BDA0004085112860000034
是SBS b的本地缓存状态,pb是在SBS b覆盖范围预测的流行的内容;
动作:在时隙t,SBS b的动作定义为
Figure BDA0004085112860000035
系统的动作定义为/>
Figure BDA0004085112860000036
其中,Fp=|pb|代表预测的流行的内容的数量;
奖励:在时隙t,将SBS b的奖励定义为
Figure BDA0004085112860000037
Figure BDA0004085112860000038
系统的奖励为
Figure BDA0004085112860000039
其中,α,β,χ和η是预定义的常数,/>
Figure BDA00040851128600000310
和/>
Figure BDA00040851128600000311
是在SBSb覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据;
策略:用π={π1,...,πb,...,πB}表示缓存策略,来最大化预期的长期折扣回报π*=argminJ(π),其中,
Figure BDA00040851128600000312
γ∈(0,1)是折扣因子。
优选地,利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤:
SBS在第一轮迭代训练中初始化自身的全局模型ωr,在每一轮迭代训练中,SBS更新全局模型,并将全局模型ωr传递给其覆盖范围下所有的UEs;
SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型,并通过训练迭代更新本地模型;
本地模型更新完成,UE i将更新后的本地模型
Figure BDA0004085112860000041
上传到本地SBS;
在SBS覆盖范围内的所有UEs上传其更新后的本地模型
Figure BDA0004085112860000042
后,所述SBS通过计算所有接收到的更新后的本地模型/>
Figure BDA0004085112860000043
的加权平均和来生成新的全局模型ωr+1,其计算公式为:
Figure BDA0004085112860000044
其中,η是固定的学习率;
通过多个回合迭代训练,得到最终的全局模型,对抗性编码器模型完成训练。
优选地,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。
优选地,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括:
首先定义权重距离公式,公式如下:
Figure BDA0004085112860000045
其中,ωa和ωb分别表示两种模型的权重,dis(ωab)越大,两种模型之间的差异就越大;
然后分别计算每层本地模型
Figure BDA0004085112860000051
和全局模型ωr的差异并且引入αi作为弹性参数,计算公式如下:
Figure BDA0004085112860000052
其中,
Figure BDA0004085112860000053
是本地模型/>
Figure BDA0004085112860000054
的第l层的权重,ωr是全局模型ωr的第l层的权重,|L|表示深度学习网络的层数,用于平均每层的权重距离函数,αi越大,全局模型和本地模型两种模型之间的差距越大;
最后根据弹性更新公式
Figure BDA0004085112860000055
对本地模型进行更新训练。
优选地,SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵具体包括:
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入,输出重构的评分矩阵
Figure BDA0004085112860000056
计算UE中每个用户中评分不为零的内容数,并将设定数量的具有最大非零内容数的用户标记为活跃的用户;
UE将重构的评分矩阵
Figure BDA0004085112860000057
和其个人信息矩阵Hi结合为组合矩阵Hi,计算每个活跃的用户和其他用户之间的相似性;
对于每个活跃的用户a,UE选择具有K个最大相似性的用户作为用户a的K个相邻用户,提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵
Figure BDA0004085112860000058
优选地,计算每个活跃的用户和其他用户之间的相似性的方法为:
根据余弦相似性计算每个活跃的用户和其他用户之间的相似性,其计算公式为:
Figure BDA0004085112860000061
其中,Hi(a,:)和Hi(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量,‖Hi(a,:)‖2和‖Hi(b,:)‖2分别是Hi(a,:)和Hi(b,:)的2-norm。
本发明实施例还提供了一种基于多智能体强化学习和联邦学习的边缘缓存系统,该系统包括:
流行内容预测模块,用于构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
边缘缓存模块,用于基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。
本发明实施例还提供了一种网络装置,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。
从以上技术方案可以看出,本发明申请具有以下优点:
本发明实施例提供一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统,本发明使用FDL来预测内容流行度,通过SBS的协调下从其覆盖范围下的UEs联合训练共享的全局模型,其中UEs在本地训练自己的模型。在FDL中使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性来训练个性化模型。每个SBS预测完自己覆盖范围内的内容流行度后。本发明提出了一个多智能体深度强化学习协作缓存MADRL框架,其中每个SBS基于本地和相邻SBSs的状态做出自己的缓存决定,以有效利用分布式边缘缓存。实验结果表明,本发明提出的方法优于其他基线缓存方法。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的会理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为根据实施例中提供的一种基于多智能体强化学习和联邦学习的边缘缓存方法的流程图;
图2为实施例中提供的一种网络示意图;
图3(a)、(b)分别为本发明方法与其它三种算法在不同缓存大小中成本、缓存命中率的比较示意图;
图4为本发明方法训练过程的损失趋势;
图5(a)、(b)、(c)分别为本发明方法在测试阶段中每个回合不同缓存大小的成本、缓存命中率、奖励的比较示意图;
图6(a)、(b)、(c)分别为本发明方法在不同缓存大小中不同SBSs数量的成本、缓存命中率、奖励的比较示意图;
图7(a)、(b)、(c)分别为本发明方法的对抗性编码器模型中encoder网络、decoder网络、discriminator网络各层的权重距离。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出一种基于多智能体强化学习和联邦学习的边缘缓存方法,该方法包括:
S1:构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
S2:基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。
提供一种基于多智能体强化学习和联邦学习的边缘缓存方法,通过使用FDL来预测内容流行度,通过SBS的协调下从其覆盖范围下的UEs联合训练共享的全局模型,其中UEs在本地训练自己的模型;在FDL中使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性来训练个性化模型。每个SBS预测完自己覆盖范围内的内容流行度后;本发明提出了一个多智能体深度强化学习协作缓存MADRL框架,其中每个SBS基于本地和相邻SBSs的状态做出自己的缓存决定,以有效利用分布式边缘缓存。实验结果表明,本发明提出的方法优于其他基线缓存方法。
如图2所示,该网络包括内容服务器(Content server,CS),一组SBSs和一定数量的UEs。CS通过回程链路连接到核心网络,UE可以直接从其获取所有请求的内容。所有SBSs通过下一代NG接口的回程链路与CS连接;每个SBS都配备缓存设备,具有一定的存储容量,SBSs通过无线链路为在其覆盖范围内的UEs提供内容服务。虽然单个SBS缓存容量实际上非常有限,但是相邻的SBSs可以通过Xn接口相互通信分享缓存的内容,使得可以协调SBS以充分利用分布式边缘缓存。该网络中,UEs可以通过本地SBS(UE当前访问的SBS),相邻SBSs(本地SBS相邻的SBSs)获取请求的内容。
为了解决分布式边缘缓存放置问题,构建包括状态、动作、奖励和策略的MADRL框架,具体包括:
状态:在时隙t,SBS b的本地状态
Figure BDA0004085112860000101
定义为/>
Figure BDA0004085112860000102
系统的状态定义为
Figure BDA0004085112860000103
其中,/>
Figure BDA0004085112860000104
是SBS b的本地缓存状态,pb是在SBS b覆盖范围预测的流行的内容;
动作:为了适应内容流行度的动态变化,每个SBS需要删除一些不流行的内容或者添加其他的流行内容来主动调整本地缓存的位置。在时隙t,SBS b的动作定义为
Figure BDA0004085112860000105
系统的动作定义为/>
Figure BDA0004085112860000106
Figure BDA0004085112860000107
其中,Fp=|pb|代表预测的流行的内容的数量;
奖励:在协作缓存系统中,UE请求可以由CS、本地SBS或相邻SBSs来满足,这取决于内容放置。UE获取内容的三种方式通常对应不同的成本。
当UE从本地SBS获取请求的内容时,本地SBS b的服务成本表示为
Figure BDA0004085112860000108
其中,α表示从本地SBS b交付一个内容的成本,/>
Figure BDA0004085112860000109
表示在时隙t期间SBS b从其本地缓存获取内容的数量;当UE从SBSs获取请求的内容时,相邻SBSs的服务成本表示为/>
Figure BDA00040851128600001010
其中,β表示从本地SBS b的相邻SBSs交付一个内容的成本,/>
Figure BDA00040851128600001011
表示在时隙t期间本地SBS b从其相邻SBSs获取的内容数量,由于分布式SBSs之间的内容共享会消耗回程资源,因此从相邻SBSs获取内容的成本远高于从本地SBS获取内容的成本,即β>α,β的值取决于SBS b和相邻SBSs之间的距离;当UE从CS获取请求的内容时,CS的服务成本表示为/>
Figure BDA0004085112860000111
其中,χ表示从CS向访问SBS b的UE交付请求内容的成本,/>
Figure BDA0004085112860000112
表示在时隙t期间从CS传输到SBS b的内容数量,由于回程和核心网络的资源消耗,CS的服务成本远高于边缘缓存,即χ>β;综上所述,在时隙t期间的内容交付成本可以表示为/>
Figure BDA0004085112860000113
当SBS在决定调整其本地缓存后,会删除一些不太流行的内容,并添加更多流行的内容。(假设所有添加的内容都是从CS下载的)缓存更换可能会对核心网络提出额外的回程要求,因此,依赖边缘缓存的内容交付的总成本不仅应包括从本地SBS、相邻SBSs和CS向UE传输内容的成本,还应该包括更新缓存位置的成本。在时隙t期间,SBS b中替换的内容可以表示为
Figure BDA0004085112860000114
让η表示在SBS b替换一个内容的成本,则更换缓存的成本为/>
Figure BDA0004085112860000115
使用边缘缓存时,UE获取内容的总成本为/>
Figure BDA0004085112860000116
当不使用边缘缓存时,所有UE请求都必须由CS处理,相应的成本是
Figure BDA0004085112860000117
通过将内容推近UE,边缘缓存可以帮助降低内容交付的成本,因此,使用边缘缓存的成本通常比不使用边缘缓存低得多。节省的成本越高,边缘缓存越有效。可以将SBS b的奖励定义为边缘缓存比不通过边缘缓存所节约的成本,公式如下:
Figure BDA0004085112860000118
其中,α,β,χ和η是预定义的常数,
Figure BDA0004085112860000119
和/>
Figure BDA00040851128600001110
是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据。直到时隙t结束,才能计算奖励,最大化奖励也对应着最小化边缘缓存获取内容的成本。由于/>
Figure BDA0004085112860000121
的存在,SBS b在t时隙的奖励既取决于其自身的缓存容,也取决于相邻SBSs的缓存内容。因此,整个系统在t时隙的奖励为
Figure BDA0004085112860000122
策略:在分布式边缘缓存系统中,每个SBS可以看成是一个智能体,必须根据系统状态决定自己的缓存内容。让π={π1,...,πb,...,πB}表示缓存策略,它将状态s映射到动作a,i.e.,a=π(s)。由于代理的行为对当前时刻的回报和长期的回报都有影响,因此所有代理都应合作寻找最佳策略π*使长期回报最大化。预期的长期折扣回报
Figure BDA0004085112860000123
其中γ∈(0,1)是折扣因子。因此协作缓存问题可以表述为一个多智能体决策问题,来最大化预期的长期折扣回报π*=argminJ(π)。
进一步地,由于每个UE的独特偏好,不同SBSs接收到的请求内容可能存在显著差异,每个SBS都应该预测自身的内容流行度,并决定哪些内容应该存储在本地缓存中。本发明采用联邦深度学习预测SBS覆盖范围内的内容流行度包括以下步骤:
利用FDL对对抗性编码器模型进行迭代训练。
1.模型下载:SBS在第一轮迭代训练中初始化自身的全局模型ωr,在每一轮迭代训练中,SBS更新全局模型,并将全局模型ωr传递给其覆盖范围下所有的UEs。
2.本地训练:SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型,并通过训练迭代更新本地模型;更新的本地模型将作为对该SBS的反馈。
让D={D1,...,Di,...}代表存储在所有UE中的训练数据,Di表示UE i的本地训练数据集,其大小为di=|Di|,d是SBS覆盖范围内所有UEs中的整个数据的大小。FL的目标是最小化损失函数F(ω),表示如下:
Figure BDA0004085112860000131
其中,Fi(ω)是UE i在使用模型ω的本地损失函数
Figure BDA0004085112860000132
fj(ω)是第j个数据在使用模型ω所造成的预测损失。
每个UE通过多次迭代来更新自己的本地模型,公式如下:
Figure BDA0004085112860000133
其中,η是固定的学习率,
Figure BDA0004085112860000134
是在回合r的UE i的本地模型和/>
Figure BDA0004085112860000135
是UE i在使用本地模型/>
Figure BDA0004085112860000136
的情况下梯度。
由于本地模型的更新需要由其自身的特性来确定。在本地模型更新中,如果直接使用全局模型将会消除每个UE的特征,并且浪费训练过程中的时间。因此,本发明在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括:
首先定义权重距离公式,公式如下:
Figure BDA0004085112860000137
其中,ωa和ωb分别表示两种模型的权重,dis(ωab)越大,两种模型之间的差异就越大;
然后在由多层网络L={l1,l2,...}组成的学习网络中,在回合r,分别计算每层本地模型
Figure BDA0004085112860000138
和全局模型ωr的差异并且引入αi作为弹性参数,计算公式如下:
Figure BDA0004085112860000141
其中,
Figure BDA0004085112860000142
是本地模型/>
Figure BDA0004085112860000143
的第l层的权重,ωr是全局模型ωr的第l层的权重,|L|表示深度学习网络的层数,用于平均每层的权重距离函数,αi越大,全局模型和本地模型两种模型之间的差距越大;
最后根据弹性更新公式
Figure BDA0004085112860000144
对本地模型进行更新训练。在本地模型更新过程中,提高全局模型的比例可以有效促进全局模型对个性化模型的影响。
3.上传模型:本地模型更新完成,UE将更新后的本地模型
Figure BDA0004085112860000145
上传到本地的SBS。
4.权重聚合:在SBS覆盖范围内的所有UE上传其更新后的本地模型
Figure BDA0004085112860000146
后,该SBS通过计算所有接收到的更新后的本地模型/>
Figure BDA0004085112860000147
的加权平均和来生成新的全局模型ωr+1,其计算公式为:
Figure BDA0004085112860000148
其中,η是固定的学习率。
通过多个回合迭代训练,得到最终的全局模型,对抗性编码器模型完成训练。
本发明通过缓存在UEs上的训练数据,促进所有UE之间的深度神经网络模型的协作训练。FDL显著降低了US的隐私风险,并大大降低了集中式机器学习带来的通信成本。
在对抗性编码器模型训练好后,SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵,具体包括以下步骤:
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入,输出重构的评分矩阵
Figure BDA0004085112860000156
每个UE还提取个人信息矩阵,其中矩阵的第一维度是用户的ID,第二维度是用户的个人信息,表示为Hi。计算UE中每个用户中评分不为零的内容数,并将1/e具有最大非零内容数的用户标记为活跃的用户。UE i将重构的评分矩阵/>
Figure BDA0004085112860000157
和其个人信息矩阵Hi结合为组合矩阵Hi,计算每个活跃的用户和其他用户之间的相似性。
具体的,根据余弦相似性计算每个活跃的用户和其他用户之间的相似性,其计算公式为:
Figure BDA0004085112860000151
其中,Hi(a,:)和Hi(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量,‖Hi(a,:)‖2和‖Hi(b,:)‖2分别是Hi(a,:)和Hi(b,:)的2-norm。
对于每个活跃的用户a,UE选择具有K个最大相似性的用户作为用户a的K个相邻用户。K个相邻用户的评分也在一定程度上反映了用户a的喜好。提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵
Figure BDA0004085112860000152
其中/>
Figure BDA0004085112860000153
第一维度是所有活跃用户的相邻用户的ID,而/>
Figure BDA0004085112860000154
的第二维度是相邻用户对内容的评分。在/>
Figure BDA0004085112860000155
中,评分不为零的内容被视为用户感兴趣的内容。
统计每个用户感兴趣内容的数量,UE i选择Pn个最大内容流行度的内容作为预测UE i的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;在SBS覆盖范围内所有UE上传其预测的感兴趣内容后,SBS比较所有UE上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容。
每个SBS的缓存容量C,即每个SBS可容纳的最大内容数,通常小于Pn。每个SBS都采用上述内容流行度预测算法来预测出本SBS的流行的内容。
接下来,发明提出了一种用于协作边缘缓存的多智能体深度确定性梯度策略(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法,以确定预测的流行内容缓存到哪里来最小化缓存成本。
MADDPG算法是基于多智能体actor-critic框架,Actor网络用于策略改进,critic网络用于策略评估。MADDPG算法使用深度神经网络作为函数逼近器来有效地逼近和评估策略,从而形成相应的actor网络和critic网络。每个智能体都有本地的actor网络和critic网络。智能体b的actor网络用于近似策略πb,其中近似策略表达为
Figure BDA0004085112860000165
actor网络所输出的动作是基于策略/>
Figure BDA0004085112860000166
和观察到的状态。智能体b的critic网络接收本地观察和动作,并估计本地预期奖励。所有的智能体共享集中式的全局critic网络,在这里所有智能体本地的观察和动作作为输入,并估计全局critic网络对他们的奖励。目标是改进和评估策略的同时实现全局和本地奖励的最大化。目标网络的使用可以保证算法的稳定性,目标网络包括目标actor网络和目标critic网络,其网络结构分别与actor网络和critic网络相同。让θb和φb分别是智能体b的actor网络和critic网络的参数,θ′b和φ′b分别是智能体b的目标actor网络和目标critic网络的参数,/>
Figure BDA0004085112860000161
是全局critic网络的参数,/>
Figure BDA0004085112860000162
是目标全局critic网络的参数。由于函数逼近误差,critic函数仍存在高估和低估策略的问题。全局critic网络被twin全局critics网络替换,即有两个全局critic网络和两个目标全局critic网络,其网络参数分别为/>
Figure BDA0004085112860000163
进一步地,MADDPG训练算法,具体步骤如下:
首先,随机初始化twin全局critic网络参数
Figure BDA0004085112860000164
每个智能体b的actor网络参数θb和critic网络参数φb,分别使twin目标全局critic网络参数/>
Figure BDA0004085112860000171
每个智能体b的目标actor网络参数θ′b和目标critic网络参数φ′b初始化为/>
Figure BDA0004085112860000172
θb和φb。构造一个具有足够空间的回放缓冲D用来缓存转换。
接着这个算法执行E回合。在每个回合,每个SBS b通过内容流行度预测算法获取自身覆盖范围内的内容流行度pb,并且从pb中随机选取C内容作为该SBS的缓存内容。因此,每个SBS获得了初始的状态
Figure BDA0004085112860000173
整个系统的初始状态/>
Figure BDA0004085112860000174
然后,从时隙1到时隙T迭代执行该算法。每个SBS b的actor网络输入其初始状态
Figure BDA0004085112860000175
输出动作/>
Figure BDA0004085112860000176
从而得到整个系统的动作/>
Figure BDA0004085112860000177
Figure BDA0004085112860000178
每个SBS执行自身actor网络输出的动作后观察到下一时隙的状态/>
Figure BDA0004085112860000179
从而得到整个系统的状态
Figure BDA00040851128600001710
然后,每个SBS协作缓存内容来应对UE请求的内容,同时获取自身的奖励/>
Figure BDA00040851128600001711
进而获取整个系统的全局奖励R1,让本地奖励/>
Figure BDA00040851128600001712
然后元组/>
Figure BDA00040851128600001713
存储在回放缓冲D中。当存储在D中的元组数小于M时,每个SBS b将下个时隙自身的状态输入自身的actor网络并开始下一次迭代。
当存储的元组大于M时,CS首先从D中均匀抽样M数组以形成一个小批次(minibatch)。为了简单起见,让
Figure BDA00040851128600001714
分别表示为s,a,R,RL,s′,a′。
Figure BDA00040851128600001715
代表在小批次中第i元组。对于元组i,CS首先将s′i中每个本地状态/>
Figure BDA00040851128600001716
分别输入到对应SBS b的目标本地actor网络θ′b,然后输出每个SBS b的动作
Figure BDA00040851128600001717
之后得到整个系统动作/>
Figure BDA00040851128600001718
接着CS将a′i和s′i输入到twin目标全局critic网络中,分别输出两个状态价值函数
Figure BDA00040851128600001719
之后,CS计算twin目标全局critic网络的目标值,计算公式如下:
Figure BDA00040851128600001720
那么损失函数可以计算为
Figure BDA0004085112860000181
其中
Figure BDA0004085112860000182
是在动作状态分别为ai,si的情况下twin全局critic网络的状态价值函数。然后twin全局critic网络通过,使用相应的/>
Figure BDA0004085112860000183
Figure BDA0004085112860000184
来更新自己的参数,也就是通过梯度下降最小化损失函数。
然后SBS b的本地的损失函数可以计算为:
Figure BDA0004085112860000185
Figure BDA0004085112860000186
然后SBS b的策略梯度可以计算为:
Figure BDA0004085112860000187
SBS b使用
Figure BDA0004085112860000188
更新本地的actor网络参数并且通过梯度上升的方法使/>
Figure BDA0004085112860000189
最大化。
在时隙t的最后,每个SBS更新目标本地actor网络和critic网络的参数θ′b=τθb+(1-τ)θ′b,φ′b=τφb+(1-τ)φ′b
在下一时隙,继续开始迭代。当迭代次数达到Ns时,这个回合结束。接着每个SBS将会通过内容流行度预测算法获取当前回合的自身覆盖范围内的内容流行度pb,并且从pb中随机选取C内容作为该SBS当前回合的初始缓存内容,下一回合开始。当回合数达到N时,算法将最终终止,训练阶段结束。
本发明提出一种MADDPG测试算法,测试阶段省略了训练阶段的每个SBS的critic网络,目标actor网络和目标critic网络,同样地也省略了twin全局critic网络和twin目标全局critic网络。测试阶段采用具有优化的参数θb *最优的策略来测试性能。
本发明提供一种基于多智能体强化学习和联邦学习的边缘缓存系统,该系统包括:
流行内容预测模块,用于构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
边缘缓存模块,用于基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。
所述系统,用以实现上述所述的基于多智能体强化学习和联邦学习的边缘缓存方法,为了避免冗余,在此不再赘述。
为了阐述与验证本发明方法的优点,对本发明所述的缓存方法做了仿真实验,结果如下。
从图3中可以看出,所有方法的成本都随着缓存大小的增加而降低,缓存命中率都随着缓存大小的增加而增加。这是因为所有SBSs有着更大的缓存大小缓存更多内容,因此更容易从SBSs边缘设备中获取UEs请求的内容,减轻了CS的压力从而整个网络中缓存性能就会更好。此外,可以看出,Random方法提供了最差的缓存性能(最高的成本和最低的缓存命中率),因为该方法只是随机选择内容,而不考虑内容流行度。此外,提出的和C-ε-greedy方法优于Random和Thompson Sampling方法,这是因为Random和Thompson Sampling方法不能通过学习预测缓存内容,而提出的和C-ε-greedy方法通过观察历史请求的内容来决定缓存内容。此外,提出的优于C-ε-greedy方法,这是因为提出的方法从数据中捕获有用的隐藏特征,以预测准确的流行内容。
在MADDPG算法的训练过程中,设置SBSs的数量为2。如图4所示,全局损失迅速衰减直到400个slots,然后逐渐稳定;两个SBSs的本地损失迅速衰减直到750个slots,然后逐渐稳定。由于损失代表了状态价值函数与实际奖励之间的误差,因此随着训练的进行,状态价值函数逐渐接近实际奖励。这说明学习方法分别在经历在经过400和750个slots的训练后收敛,训练有素的全局和本地critic网络可以用于准确估计价值函数。
在MADDPG算法的测试过程中,设置SBSs的数量为2,MADDPG算法将采用在训练阶段学习到的策略来测试性能。图5(a)、(b)、(c)分别展示了在不同的回合提出的方法在测试阶段,其成本、缓存命中率和奖励的性能。可以看出,提出的方法在训练阶段学习到的策略在不同的测试回合,其性能都趋于平稳。
图6(a)、(b)、(c)展示了多智能体(即SBSs)的数量如何影响所提出的方法,当SBS数量为1时,在这种情况下提供了最差的性能,这是因为提出的方法已经变成了单智能体决策方法,其已经不是协作缓存,UEs只能从本地SBS和CS获取请求的内容。之后随着SBS数量的增加,提出的方法在成本、缓存命中率和奖励性能上基本都越来越好,这是因为有更多的SBSs缓存了更多的内容,同时也说明提出的算法可以很多的协调边缘缓存。
图7(a)、(b)、(c)分别展示了本发明方法的对抗性编码器模型中encoder网络、decoder网络、discriminator网络各层的权重距离,曲线代表对抗性编码器模型的不同网络中每一层和平均的权重距离。可以从图7中看出,随着梯度下降过程次数的增加,本地模型与全局模型之间的距离趋于缩小。这是因为在FDL训练时,基于全局模型和本地模型之间的距离来度量全局模型的弹性更新百分比,从而有效地促进全局模型对本地模型的影响。FDL的训练达到一定通信回合数后,三个网络中各层权重距离收敛。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,包括:
构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。
2.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,构建包括状态、动作、奖励和策略的MADRL框架,具体包括:
状态:在时隙t,SBS b的本地状态
Figure FDA0004085112850000012
定义为/>
Figure FDA0004085112850000011
系统的状态定义为
Figure FDA0004085112850000021
其中,/>
Figure FDA0004085112850000022
是SBS b的本地缓存状态,pb是在SBSb覆盖范围预测的流行的内容;
动作:在时隙t,SBS b的动作定义为
Figure FDA0004085112850000023
系统的动作定义为
Figure FDA0004085112850000024
其中,Fp=|pb|代表预测的流行的内容的数量;
奖励:在时隙t,将SBSb的奖励定义为
Figure FDA0004085112850000025
Figure FDA0004085112850000026
系统的奖励为
Figure FDA0004085112850000027
其中,α,β,χ和η是预定义的常数,/>
Figure FDA0004085112850000028
和/>
Figure FDA0004085112850000029
是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据;
策略:用π={π1,...,πb,...,πB}表示缓存策略,来最大化预期的长期折扣回报π*=argminJ(π),其中,
Figure FDA00040851128500000210
γ∈(0,1)是折扣因子。
3.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤:
SBS在第一轮迭代训练中初始化自身的全局模型ωr,在每一轮迭代训练中,SBS更新全局模型,并将全局模型ωr传递给其覆盖范围下所有的UEs;
SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型,并通过训练迭代更新本地模型;
本地模型更新完成,UEi将更新后的本地模型
Figure FDA00040851128500000211
上传到本地SBS;
在SBS覆盖范围内的所有UEs上传其更新后的本地模型
Figure FDA00040851128500000212
后,所述SBS通过计算所有接收到的更新后的本地模型/>
Figure FDA00040851128500000213
的加权平均和来生成新的全局模型ωr+1,其计算公式为:
Figure FDA0004085112850000031
其中,η是固定的学习率;
通过多个回合迭代训练,得到最终的全局模型,对抗性编码器模型完成训练。
4.根据权利要求3所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。
5.根据权利要求4所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括:
首先定义权重距离公式,公式如下:
Figure FDA0004085112850000032
其中,ωa和ωb分别表示两种模型的权重,dis(ωab)越大,两种模型之间的差异就越大;
然后分别计算每层本地模型
Figure FDA0004085112850000033
和全局模型ωr的差异并且引入αi作为弹性参数,计算公式如下:
Figure FDA0004085112850000034
其中,
Figure FDA0004085112850000041
是本地模型/>
Figure FDA0004085112850000046
的第l层的权重,ωr是全局模型ωr的第l层的权重,|L|表示深度学习网络的层数,用于平均每层的权重距离函数,αi越大,全局模型和本地模型两种模型之间的差距越大;
最后根据弹性更新公式
Figure FDA0004085112850000042
对本地模型进行更新训练。
6.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵具体包括:
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入,输出重构的评分矩阵
Figure FDA0004085112850000043
计算UE中每个用户中评分不为零的内容数,并将设定数量的具有最大非零内容数的用户标记为活跃的用户;
UE将重构的评分矩阵
Figure FDA0004085112850000044
和其个人信息矩阵Hi结合为组合矩阵Hi,计算每个活跃的用户和其他用户之间的相似性;
对于每个活跃的用户a,UE选择具有K个最大相似性的用户作为用户a的K个相邻用户,提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵
Figure FDA0004085112850000045
7.根据权利要求6所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,计算每个活跃的用户和其他用户之间的相似性的方法为:
根据余弦相似性计算每个活跃的用户和其他用户之间的相似性,其计算公式为:
simi(a,b)=cos(Hi(a,:),
Figure FDA0004085112850000051
其中,Hi(a,:)和Hi(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量,||Hi(a,:)||2和||Hi(b,:)||2分别是Hi(a,:)和Hi(b,:)的2-norm。
8.一种基于多智能体强化学习和联邦学习的边缘缓存系统,其特征在于,包括:
流行内容预测模块,用于构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:
利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
边缘缓存模块,用于基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。
9.一种网络装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。
CN202310134885.3A 2023-02-20 2023-02-20 基于多智能体强化学习和联邦学习的边缘缓存方法及系统 Pending CN116362345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310134885.3A CN116362345A (zh) 2023-02-20 2023-02-20 基于多智能体强化学习和联邦学习的边缘缓存方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310134885.3A CN116362345A (zh) 2023-02-20 2023-02-20 基于多智能体强化学习和联邦学习的边缘缓存方法及系统

Publications (1)

Publication Number Publication Date
CN116362345A true CN116362345A (zh) 2023-06-30

Family

ID=86917639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310134885.3A Pending CN116362345A (zh) 2023-02-20 2023-02-20 基于多智能体强化学习和联邦学习的边缘缓存方法及系统

Country Status (1)

Country Link
CN (1) CN116362345A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117938957A (zh) * 2024-03-22 2024-04-26 精为技术(天津)有限公司 基于联邦深度学习的边缘缓存优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865826A (zh) * 2020-07-02 2020-10-30 大连理工大学 一种基于联邦学习的主动内容缓存方法
CN112532746A (zh) * 2020-12-21 2021-03-19 北京邮电大学 一种云边协同感知的方法及系统
CN114595632A (zh) * 2022-03-07 2022-06-07 北京工业大学 一种基于联邦学习的移动边缘缓存优化方法
CN115297170A (zh) * 2022-06-16 2022-11-04 江南大学 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865826A (zh) * 2020-07-02 2020-10-30 大连理工大学 一种基于联邦学习的主动内容缓存方法
CN112532746A (zh) * 2020-12-21 2021-03-19 北京邮电大学 一种云边协同感知的方法及系统
CN114595632A (zh) * 2022-03-07 2022-06-07 北京工业大学 一种基于联邦学习的移动边缘缓存优化方法
CN115297170A (zh) * 2022-06-16 2022-11-04 江南大学 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANGXIN WANG ET AL: "Intelligent Video Caching at Network Edge: A Multi-Agent Deep Reinforcement Learnin Approach", 《IEEE INFOCOM 2020-IEEE CONFERENCE ON COMPUTER COMMUNICATIONS》, 4 August 2020 (2020-08-04), pages 2499 - 2508 *
ZHENGXIN YU ET AL: "Mobility-Aware Proactive Edge Caching for Connected Vehicles Using Federated Learning", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》, vol. 22, no. 8, 31 August 2021 (2021-08-31), pages 5341 - 5351, XP011871215, DOI: 10.1109/TITS.2020.3017474 *
徐文娟;贾向东;陈玉宛;: "缓存与MIMO回程联合的内容传递方法", 计算机工程, no. 06, 15 June 2020 (2020-06-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117938957A (zh) * 2024-03-22 2024-04-26 精为技术(天津)有限公司 基于联邦深度学习的边缘缓存优化方法

Similar Documents

Publication Publication Date Title
Yu et al. Federated learning based proactive content caching in edge computing
Zhan et al. An incentive mechanism design for efficient edge learning by deep reinforcement learning approach
Sadeghi et al. Deep reinforcement learning for adaptive caching in hierarchical content delivery networks
Paschos et al. Learning to cache with no regrets
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
He et al. QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN113055489A (zh) 基于q学习的星地融合网络资源分配策略的实现方法
CN115297170A (zh) 一种基于异步联邦和深度强化学习的协作边缘缓存方法
Paschos et al. Online convex optimization for caching networks
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116362345A (zh) 基于多智能体强化学习和联邦学习的边缘缓存方法及系统
WO2024174426A1 (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN117939505B (zh) 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统
Yan et al. Distributed edge caching with content recommendation in fog-rans via deep reinforcement learning
CN113992770B (zh) 雾无线接入网中基于策略的联邦强化学习的协作缓存方法
CN116187483A (zh) 模型训练方法、装置、设备、介质和程序产品
CN115129888A (zh) 一种基于网络边缘知识图谱的主动内容缓存方法
CN113114762B (zh) 一种数据缓存方法及系统
Chen et al. Enhanced hybrid hierarchical federated edge learning over heterogeneous networks
CN117499484A (zh) 一种基于深度强化学习的边缘缓存替换方法
CN117252253A (zh) 异步联邦边缘学习中的客户端选择和个性化隐私保护方法
Yan et al. Drl-based collaborative edge content replication with popularity distillation
CN108990111B (zh) 一种内容流行度随时间变化下的基站缓存方法
CN116911382A (zh) 资源有限联邦边缘学习中的异步聚合与隐私保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination