CN116362345A

CN116362345A - 基于多智能体强化学习和联邦学习的边缘缓存方法及系统

Info

Publication number: CN116362345A
Application number: CN202310134885.3A
Authority: CN
Inventors: 吴琼; 赵宇; 汪文华; 李正权
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-30

Abstract

本发明提供一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统，该方法包括：构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整SBS本地缓存的流行的内容。本发明SBS可以预测自己覆盖范围内的内容流行度；并可以有效的调整SBSs本地缓存的流行的内容，进而实现了有效利用分布式边缘缓存。

Description

基于多智能体强化学习和联邦学习的边缘缓存方法及系统

技术领域

本发明涉及数据缓存技术领域，尤其涉及一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统。

背景技术

近年来，随着智能设备普及率的提高，移动数据流量空前增长，这给无线网络带来了沉重的流量负担。因此，无线网络可能变得非常拥挤，很难以令人满意的服务质量满足用户设备(User Equipments，UEs)的请求。为了应对这一挑战，边缘缓存被提出为下一代网络通信的一种有前途的解决方法。边缘缓存可以通过在无线边缘节点(例如，小型基站(small-cell base stations，SBSs))中赋予缓存单元，UEs可以在附近预取流行的内容。随后，缓存的内容能够在前端和后端链路中无重复传输的情况下交付给UE。此过程显著降低了流量负载，缓解了网络拥塞，减少了延迟，从而提高了系统性能。

由于每个UE的独特的偏好，不同SBSs中的内容流行度可能会呈现出令人惊讶的差异性。这种情况下要求每个SBS预测自己覆盖范围内的内容流行度。机器学习(MachineLearning，ML)可以通过训练用户数据来提取隐藏特征，从而有效预测流行的内容。大多数机器学习ML算法以集中的方式训练模型，其中多个UEs生成的数据必须发送到无线边缘节点进行分析。这些生成的数据可能涉及UE的个人敏感信息。不仅如此，随着SBSs覆盖范围内UEs数量的增长，UEs生成的数据也会增加。由于产生的高计算量和通信成本，集中式机器学习ML算法可能难以处理此类数据。联邦深度学习(Federated Deep Learning，FDL)已经成为一种潜在可行的解决方法。

此外，在SBS的存储容量有限时，每个SBS预测完自己覆盖范围内的内容流行度后，不同的SBSs预测的流行的内容分别缓存在哪个SBS将称为一个难题。缓存操作的维度随着SBS和内容的数量而增加，这不可避免地增加了在整个系统中缓存问题的复杂性，这使得我们很难协调下一代网络中的SBS缓存，以有效利用分布式边缘缓存。

发明内容

为此，本发明实施例提供了一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统，用于解决现有技术中难以协调下一代网络中的SBS缓存，以有效利用分布式边缘缓存的问题。

为此，本发明实施例提供一种基于多智能体强化学习和联邦学习的边缘缓存方法，该方法包括：

构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；

其中，所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤：

利用联邦深度学习对对抗性编码器模型进行迭代训练；

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵；

统计每个用户感兴趣内容的数量，UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容，其中感兴趣内容的数量称为该内容的内容流行度；

在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后，所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容；

基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。

优选地，构建包括状态、动作、奖励和策略的MADRL框架，具体包括：

状态：在时隙t，SBS b的本地状态

定义为/>

系统的状态定义为

其中，/>

是SBS b的本地缓存状态，p_b是在SBS b覆盖范围预测的流行的内容；

动作：在时隙t，SBS b的动作定义为

系统的动作定义为/>

其中，F_p＝|p_b|代表预测的流行的内容的数量；

奖励：在时隙t，将SBS b的奖励定义为

系统的奖励为

其中，α,β,χ和η是预定义的常数，/>

和/>

是在SBSb覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据；

策略：用π＝{π₁,...,π_b,...,π_B}表示缓存策略，来最大化预期的长期折扣回报π^*＝argminJ(π)，其中，

γ∈(0,1)是折扣因子。

优选地，利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤：

SBS在第一轮迭代训练中初始化自身的全局模型ω_r，在每一轮迭代训练中，SBS更新全局模型，并将全局模型ω_r传递给其覆盖范围下所有的UEs；

SBS覆盖范围下的每个UE将下载的全局模型ω_r设置为自身的初始的本地模型，并通过训练迭代更新本地模型；

本地模型更新完成，UE i将更新后的本地模型

上传到本地SBS；

在SBS覆盖范围内的所有UEs上传其更新后的本地模型

后，所述SBS通过计算所有接收到的更新后的本地模型/>

的加权平均和来生成新的全局模型ω_r+1，其计算公式为：

其中，η是固定的学习率；

通过多个回合迭代训练，得到最终的全局模型，对抗性编码器模型完成训练。

优选地，在本地模型更新过程中，使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。

优选地，在本地模型更新过程中，使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括：

首先定义权重距离公式，公式如下：

其中，ω_a和ω_b分别表示两种模型的权重，dis(ω_a,ω_b)越大，两种模型之间的差异就越大；

然后分别计算每层本地模型

和全局模型ω_r的差异并且引入αⁱ作为弹性参数，计算公式如下：

其中，

是本地模型/>

的第l层的权重，ω_r是全局模型ω_r的第l层的权重，|L|表示深度学习网络的层数，用于平均每层的权重距离函数，αⁱ越大，全局模型和本地模型两种模型之间的差距越大；

最后根据弹性更新公式

对本地模型进行更新训练。

优选地，SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵具体包括：

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，将UE i对内容的评分矩阵X_i作为训练好的对抗性编码器模型的输入，输出重构的评分矩阵

计算UE中每个用户中评分不为零的内容数，并将设定数量的具有最大非零内容数的用户标记为活跃的用户；

UE将重构的评分矩阵

和其个人信息矩阵H_i结合为组合矩阵Hi，计算每个活跃的用户和其他用户之间的相似性；

对于每个活跃的用户a，UE选择具有K个最大相似性的用户作为用户a的K个相邻用户，提取评分矩阵X_i中每个活跃用户的K个相邻用户的向量并且构建矩阵

优选地，计算每个活跃的用户和其他用户之间的相似性的方法为：

根据余弦相似性计算每个活跃的用户和其他用户之间的相似性，其计算公式为：

其中，H_i(a,:)和H_i(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量，‖H_i(a,:)‖₂和‖H_i(b,:)‖₂分别是H_i(a,:)和H_i(b,:)的2-norm。

本发明实施例还提供了一种基于多智能体强化学习和联邦学习的边缘缓存系统，该系统包括：

流行内容预测模块，用于构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；

利用联邦深度学习对对抗性编码器模型进行迭代训练；

边缘缓存模块，用于基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。

本发明实施例还提供了一种网络装置，包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现上述任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行上述任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。

从以上技术方案可以看出，本发明申请具有以下优点：

本发明实施例提供一种基于多智能体强化学习和联邦学习的边缘缓存方法及系统，本发明使用FDL来预测内容流行度，通过SBS的协调下从其覆盖范围下的UEs联合训练共享的全局模型，其中UEs在本地训练自己的模型。在FDL中使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性来训练个性化模型。每个SBS预测完自己覆盖范围内的内容流行度后。本发明提出了一个多智能体深度强化学习协作缓存MADRL框架，其中每个SBS基于本地和相邻SBSs的状态做出自己的缓存决定，以有效利用分布式边缘缓存。实验结果表明，本发明提出的方法优于其他基线缓存方法。

附图说明

为了更清楚地说明本发明实施案例或现有技术中的技术方案，下边将对实施例中所需要使用的附图做简单说明，通过参考附图会更清楚的会理解本发明的特征和优点，附图是示意性的而不应该理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为根据实施例中提供的一种基于多智能体强化学习和联邦学习的边缘缓存方法的流程图；

图2为实施例中提供的一种网络示意图；

图3(a)、(b)分别为本发明方法与其它三种算法在不同缓存大小中成本、缓存命中率的比较示意图；

图4为本发明方法训练过程的损失趋势；

图5(a)、(b)、(c)分别为本发明方法在测试阶段中每个回合不同缓存大小的成本、缓存命中率、奖励的比较示意图；

图6(a)、(b)、(c)分别为本发明方法在不同缓存大小中不同SBSs数量的成本、缓存命中率、奖励的比较示意图；

图7(a)、(b)、(c)分别为本发明方法的对抗性编码器模型中encoder网络、decoder网络、discriminator网络各层的权重距离。

具体实施方式

为使本发明实施例的目的、技术方案与优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出一种基于多智能体强化学习和联邦学习的边缘缓存方法，该方法包括：

S1：构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；

利用联邦深度学习对对抗性编码器模型进行迭代训练；

S2：基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。

提供一种基于多智能体强化学习和联邦学习的边缘缓存方法，通过使用FDL来预测内容流行度，通过SBS的协调下从其覆盖范围下的UEs联合训练共享的全局模型，其中UEs在本地训练自己的模型；在FDL中使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性来训练个性化模型。每个SBS预测完自己覆盖范围内的内容流行度后；本发明提出了一个多智能体深度强化学习协作缓存MADRL框架，其中每个SBS基于本地和相邻SBSs的状态做出自己的缓存决定，以有效利用分布式边缘缓存。实验结果表明，本发明提出的方法优于其他基线缓存方法。

如图2所示，该网络包括内容服务器(Content server，CS)，一组SBSs和一定数量的UEs。CS通过回程链路连接到核心网络，UE可以直接从其获取所有请求的内容。所有SBSs通过下一代NG接口的回程链路与CS连接；每个SBS都配备缓存设备，具有一定的存储容量，SBSs通过无线链路为在其覆盖范围内的UEs提供内容服务。虽然单个SBS缓存容量实际上非常有限，但是相邻的SBSs可以通过Xn接口相互通信分享缓存的内容，使得可以协调SBS以充分利用分布式边缘缓存。该网络中，UEs可以通过本地SBS(UE当前访问的SBS)，相邻SBSs(本地SBS相邻的SBSs)获取请求的内容。

为了解决分布式边缘缓存放置问题，构建包括状态、动作、奖励和策略的MADRL框架，具体包括：

状态：在时隙t，SBS b的本地状态

定义为/>

系统的状态定义为

其中，/>

动作：为了适应内容流行度的动态变化，每个SBS需要删除一些不流行的内容或者添加其他的流行内容来主动调整本地缓存的位置。在时隙t，SBS b的动作定义为

系统的动作定义为/>

其中，F_p＝|p_b|代表预测的流行的内容的数量；

奖励：在协作缓存系统中，UE请求可以由CS、本地SBS或相邻SBSs来满足，这取决于内容放置。UE获取内容的三种方式通常对应不同的成本。

当UE从本地SBS获取请求的内容时，本地SBS b的服务成本表示为

其中，α表示从本地SBS b交付一个内容的成本，/>

表示在时隙t期间SBS b从其本地缓存获取内容的数量；当UE从SBSs获取请求的内容时，相邻SBSs的服务成本表示为/>

其中，β表示从本地SBS b的相邻SBSs交付一个内容的成本，/>

表示在时隙t期间本地SBS b从其相邻SBSs获取的内容数量，由于分布式SBSs之间的内容共享会消耗回程资源，因此从相邻SBSs获取内容的成本远高于从本地SBS获取内容的成本，即β>α，β的值取决于SBS b和相邻SBSs之间的距离；当UE从CS获取请求的内容时，CS的服务成本表示为/>

其中，χ表示从CS向访问SBS b的UE交付请求内容的成本，/>

表示在时隙t期间从CS传输到SBS b的内容数量，由于回程和核心网络的资源消耗，CS的服务成本远高于边缘缓存，即χ>β；综上所述，在时隙t期间的内容交付成本可以表示为/>

当SBS在决定调整其本地缓存后，会删除一些不太流行的内容，并添加更多流行的内容。(假设所有添加的内容都是从CS下载的)缓存更换可能会对核心网络提出额外的回程要求，因此，依赖边缘缓存的内容交付的总成本不仅应包括从本地SBS、相邻SBSs和CS向UE传输内容的成本，还应该包括更新缓存位置的成本。在时隙t期间，SBS b中替换的内容可以表示为

让η表示在SBS b替换一个内容的成本，则更换缓存的成本为/>

使用边缘缓存时，UE获取内容的总成本为/>

当不使用边缘缓存时，所有UE请求都必须由CS处理，相应的成本是

通过将内容推近UE，边缘缓存可以帮助降低内容交付的成本，因此，使用边缘缓存的成本通常比不使用边缘缓存低得多。节省的成本越高，边缘缓存越有效。可以将SBS b的奖励定义为边缘缓存比不通过边缘缓存所节约的成本，公式如下：

其中，α,β,χ和η是预定义的常数，

和/>

是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据。直到时隙t结束，才能计算奖励，最大化奖励也对应着最小化边缘缓存获取内容的成本。由于/>

的存在，SBS b在t时隙的奖励既取决于其自身的缓存容，也取决于相邻SBSs的缓存内容。因此，整个系统在t时隙的奖励为

策略：在分布式边缘缓存系统中，每个SBS可以看成是一个智能体，必须根据系统状态决定自己的缓存内容。让π＝{π₁,...,π_b,...,π_B}表示缓存策略，它将状态s映射到动作a，i.e.，a＝π(s)。由于代理的行为对当前时刻的回报和长期的回报都有影响，因此所有代理都应合作寻找最佳策略π*使长期回报最大化。预期的长期折扣回报

其中γ∈(0,1)是折扣因子。因此协作缓存问题可以表述为一个多智能体决策问题，来最大化预期的长期折扣回报π^*＝argminJ(π)。

进一步地，由于每个UE的独特偏好，不同SBSs接收到的请求内容可能存在显著差异，每个SBS都应该预测自身的内容流行度，并决定哪些内容应该存储在本地缓存中。本发明采用联邦深度学习预测SBS覆盖范围内的内容流行度包括以下步骤：

利用FDL对对抗性编码器模型进行迭代训练。

1.模型下载：SBS在第一轮迭代训练中初始化自身的全局模型ω_r，在每一轮迭代训练中，SBS更新全局模型，并将全局模型ω_r传递给其覆盖范围下所有的UEs。

2.本地训练：SBS覆盖范围下的每个UE将下载的全局模型ω_r设置为自身的初始的本地模型，并通过训练迭代更新本地模型；更新的本地模型将作为对该SBS的反馈。

让D＝{D₁,...,D_i,...}代表存储在所有UE中的训练数据，D_i表示UE i的本地训练数据集，其大小为d_i＝|D_i|，d是SBS覆盖范围内所有UEs中的整个数据的大小。FL的目标是最小化损失函数F(ω)，表示如下：

其中，F_i(ω)是UE i在使用模型ω的本地损失函数

f_j(ω)是第j个数据在使用模型ω所造成的预测损失。

每个UE通过多次迭代来更新自己的本地模型，公式如下：

其中，η是固定的学习率，

是在回合r的UE i的本地模型和/>

是UE i在使用本地模型/>

的情况下梯度。

由于本地模型的更新需要由其自身的特性来确定。在本地模型更新中，如果直接使用全局模型将会消除每个UE的特征，并且浪费训练过程中的时间。因此，本发明在本地模型更新过程中，使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括：

首先定义权重距离公式，公式如下：

然后在由多层网络L＝{l₁,l₂,...}组成的学习网络中，在回合r，分别计算每层本地模型

其中，

是本地模型/>

最后根据弹性更新公式

对本地模型进行更新训练。在本地模型更新过程中，提高全局模型的比例可以有效促进全局模型对个性化模型的影响。

3.上传模型：本地模型更新完成，UE将更新后的本地模型

上传到本地的SBS。

4.权重聚合：在SBS覆盖范围内的所有UE上传其更新后的本地模型

后，该SBS通过计算所有接收到的更新后的本地模型/>

的加权平均和来生成新的全局模型ω_r+1，其计算公式为：

其中，η是固定的学习率。

本发明通过缓存在UEs上的训练数据，促进所有UE之间的深度神经网络模型的协作训练。FDL显著降低了US的隐私风险，并大大降低了集中式机器学习带来的通信成本。

在对抗性编码器模型训练好后，SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵，具体包括以下步骤：

每个UE还提取个人信息矩阵，其中矩阵的第一维度是用户的ID，第二维度是用户的个人信息，表示为H_i。计算UE中每个用户中评分不为零的内容数，并将1/e具有最大非零内容数的用户标记为活跃的用户。UE i将重构的评分矩阵/>

和其个人信息矩阵H_i结合为组合矩阵Hi，计算每个活跃的用户和其他用户之间的相似性。

具体的，根据余弦相似性计算每个活跃的用户和其他用户之间的相似性，其计算公式为：

对于每个活跃的用户a，UE选择具有K个最大相似性的用户作为用户a的K个相邻用户。K个相邻用户的评分也在一定程度上反映了用户a的喜好。提取评分矩阵X_i中每个活跃用户的K个相邻用户的向量并且构建矩阵

其中/>

第一维度是所有活跃用户的相邻用户的ID，而/>

的第二维度是相邻用户对内容的评分。在/>

中，评分不为零的内容被视为用户感兴趣的内容。

统计每个用户感兴趣内容的数量，UE i选择Pn个最大内容流行度的内容作为预测UE i的感兴趣内容，其中感兴趣内容的数量称为该内容的内容流行度；在SBS覆盖范围内所有UE上传其预测的感兴趣内容后，SBS比较所有UE上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容。

每个SBS的缓存容量C，即每个SBS可容纳的最大内容数，通常小于Pn。每个SBS都采用上述内容流行度预测算法来预测出本SBS的流行的内容。

接下来，发明提出了一种用于协作边缘缓存的多智能体深度确定性梯度策略(Multi-Agent Deep Deterministic Policy Gradient，MADDPG)算法，以确定预测的流行内容缓存到哪里来最小化缓存成本。

MADDPG算法是基于多智能体actor-critic框架，Actor网络用于策略改进，critic网络用于策略评估。MADDPG算法使用深度神经网络作为函数逼近器来有效地逼近和评估策略，从而形成相应的actor网络和critic网络。每个智能体都有本地的actor网络和critic网络。智能体b的actor网络用于近似策略π_b，其中近似策略表达为

actor网络所输出的动作是基于策略/>

和观察到的状态。智能体b的critic网络接收本地观察和动作，并估计本地预期奖励。所有的智能体共享集中式的全局critic网络，在这里所有智能体本地的观察和动作作为输入，并估计全局critic网络对他们的奖励。目标是改进和评估策略的同时实现全局和本地奖励的最大化。目标网络的使用可以保证算法的稳定性，目标网络包括目标actor网络和目标critic网络，其网络结构分别与actor网络和critic网络相同。让θ_b和φ_b分别是智能体b的actor网络和critic网络的参数，θ′_b和φ′_b分别是智能体b的目标actor网络和目标critic网络的参数，/>

是全局critic网络的参数，/>

是目标全局critic网络的参数。由于函数逼近误差，critic函数仍存在高估和低估策略的问题。全局critic网络被twin全局critics网络替换，即有两个全局critic网络和两个目标全局critic网络，其网络参数分别为/>

进一步地，MADDPG训练算法，具体步骤如下：

首先，随机初始化twin全局critic网络参数

每个智能体b的actor网络参数θ_b和critic网络参数φ_b，分别使twin目标全局critic网络参数/>

每个智能体b的目标actor网络参数θ′_b和目标critic网络参数φ′_b初始化为/>

θ_b和φ_b。构造一个具有足够空间的回放缓冲D用来缓存转换。

接着这个算法执行E回合。在每个回合，每个SBS b通过内容流行度预测算法获取自身覆盖范围内的内容流行度pb，并且从pb中随机选取C内容作为该SBS的缓存内容。因此，每个SBS获得了初始的状态

整个系统的初始状态/>

然后，从时隙1到时隙T迭代执行该算法。每个SBS b的actor网络输入其初始状态

输出动作/>

从而得到整个系统的动作/>

每个SBS执行自身actor网络输出的动作后观察到下一时隙的状态/>

从而得到整个系统的状态

然后，每个SBS协作缓存内容来应对UE请求的内容，同时获取自身的奖励/>

进而获取整个系统的全局奖励R¹，让本地奖励/>

然后元组/>

存储在回放缓冲D中。当存储在D中的元组数小于M时，每个SBS b将下个时隙自身的状态输入自身的actor网络并开始下一次迭代。

当存储的元组大于M时，CS首先从D中均匀抽样M数组以形成一个小批次(minibatch)。为了简单起见，让

分别表示为s,a,R,R_L,s′,a′。

代表在小批次中第i元组。对于元组i，CS首先将s′ⁱ中每个本地状态/>

分别输入到对应SBS b的目标本地actor网络θ′_b，然后输出每个SBS b的动作

之后得到整个系统动作/>

接着CS将a′ⁱ和s′ⁱ输入到twin目标全局critic网络中，分别输出两个状态价值函数

之后，CS计算twin目标全局critic网络的目标值，计算公式如下：

那么损失函数可以计算为

其中

是在动作状态分别为aⁱ,sⁱ的情况下twin全局critic网络的状态价值函数。然后twin全局critic网络通过，使用相应的/>

来更新自己的参数，也就是通过梯度下降最小化损失函数。

然后SBS b的本地的损失函数可以计算为：

然后SBS b的策略梯度可以计算为：

SBS b使用

更新本地的actor网络参数并且通过梯度上升的方法使/>

最大化。

在时隙t的最后，每个SBS更新目标本地actor网络和critic网络的参数θ′_b＝τθ_b+(1-τ)θ′_b，φ′_b＝τφ_b+(1-τ)φ′_b。

在下一时隙，继续开始迭代。当迭代次数达到Ns时，这个回合结束。接着每个SBS将会通过内容流行度预测算法获取当前回合的自身覆盖范围内的内容流行度pb，并且从pb中随机选取C内容作为该SBS当前回合的初始缓存内容，下一回合开始。当回合数达到N时，算法将最终终止，训练阶段结束。

本发明提出一种MADDPG测试算法，测试阶段省略了训练阶段的每个SBS的critic网络，目标actor网络和目标critic网络，同样地也省略了twin全局critic网络和twin目标全局critic网络。测试阶段采用具有优化的参数θ_b ^*最优的策略来测试性能。

本发明提供一种基于多智能体强化学习和联邦学习的边缘缓存系统，该系统包括：

利用联邦深度学习对对抗性编码器模型进行迭代训练；

所述系统，用以实现上述所述的基于多智能体强化学习和联邦学习的边缘缓存方法，为了避免冗余，在此不再赘述。

为了阐述与验证本发明方法的优点，对本发明所述的缓存方法做了仿真实验，结果如下。

从图3中可以看出，所有方法的成本都随着缓存大小的增加而降低，缓存命中率都随着缓存大小的增加而增加。这是因为所有SBSs有着更大的缓存大小缓存更多内容，因此更容易从SBSs边缘设备中获取UEs请求的内容，减轻了CS的压力从而整个网络中缓存性能就会更好。此外，可以看出，Random方法提供了最差的缓存性能(最高的成本和最低的缓存命中率)，因为该方法只是随机选择内容，而不考虑内容流行度。此外，提出的和C-ε-greedy方法优于Random和Thompson Sampling方法，这是因为Random和Thompson Sampling方法不能通过学习预测缓存内容，而提出的和C-ε-greedy方法通过观察历史请求的内容来决定缓存内容。此外，提出的优于C-ε-greedy方法，这是因为提出的方法从数据中捕获有用的隐藏特征，以预测准确的流行内容。

在MADDPG算法的训练过程中，设置SBSs的数量为2。如图4所示，全局损失迅速衰减直到400个slots，然后逐渐稳定；两个SBSs的本地损失迅速衰减直到750个slots，然后逐渐稳定。由于损失代表了状态价值函数与实际奖励之间的误差，因此随着训练的进行，状态价值函数逐渐接近实际奖励。这说明学习方法分别在经历在经过400和750个slots的训练后收敛，训练有素的全局和本地critic网络可以用于准确估计价值函数。

在MADDPG算法的测试过程中，设置SBSs的数量为2，MADDPG算法将采用在训练阶段学习到的策略来测试性能。图5(a)、(b)、(c)分别展示了在不同的回合提出的方法在测试阶段，其成本、缓存命中率和奖励的性能。可以看出，提出的方法在训练阶段学习到的策略在不同的测试回合，其性能都趋于平稳。

图6(a)、(b)、(c)展示了多智能体(即SBSs)的数量如何影响所提出的方法，当SBS数量为1时，在这种情况下提供了最差的性能，这是因为提出的方法已经变成了单智能体决策方法，其已经不是协作缓存，UEs只能从本地SBS和CS获取请求的内容。之后随着SBS数量的增加，提出的方法在成本、缓存命中率和奖励性能上基本都越来越好，这是因为有更多的SBSs缓存了更多的内容，同时也说明提出的算法可以很多的协调边缘缓存。

图7(a)、(b)、(c)分别展示了本发明方法的对抗性编码器模型中encoder网络、decoder网络、discriminator网络各层的权重距离，曲线代表对抗性编码器模型的不同网络中每一层和平均的权重距离。可以从图7中看出，随着梯度下降过程次数的增加，本地模型与全局模型之间的距离趋于缩小。这是因为在FDL训练时，基于全局模型和本地模型之间的距离来度量全局模型的弹性更新百分比，从而有效地促进全局模型对本地模型的影响。FDL的训练达到一定通信回合数后，三个网络中各层权重距离收敛。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。