CN116546021A

CN116546021A - 一种移动边缘计算中具有隐私保护的智能体策略学习方法

Info

Publication number: CN116546021A
Application number: CN202310686533.9A
Authority: CN
Inventors: 李云; 王碧; 夏士超; 姚枝秀; 高倩; 庄宏成
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-04

Abstract

本发明属于移动通信技术领域，具体涉及一种移动边缘计算中具有隐私保护的智能体策略学习方法，包括：建立边缘协同的计算卸载模型，包括服务缓存模型、任务卸载模型和系统成本模型；基于边缘协同的计算卸载模型，以最小化任务的处理成本为目标，建立联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题；将最优问题抽象为部分可观测的马尔科夫决策过程；基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。本发明通过建立了一个边云协同的计算卸载模型，智能体网络以基于联邦学习的训练的方式保护了用户的数据和敏感信息的隐私安全。

Description

一种移动边缘计算中具有隐私保护的智能体策略学习方法

技术领域

本发明属于移动通信技术领域，具体涉及一种移动边缘计算中具有隐私保护的智能体策略学习方法。

背景技术

移动边缘计算(Mobile Edge Computing，MEC)将用户任务的存储与处理推向移动通信网络的边缘，使得用户可以在网络边缘享受到高可靠、低时延的服务，为用户业务的高效处理提供了强有力的技术支撑，进而能够很好地满足用户高效、快速的服务质量要求。然而，随着通信技术和物联网技术的相互融合与蓬勃发展，边缘网络结构日益密集异构化。同时，在边缘网络环境中，业务的广域差异化、网络环境的高度动态化以及算网资源部署去中心化等特征，制约了网络服务缓存和算网资源分配的效率。MEC中的一个关键问题是针对去中心化的边缘网络结构和用户多样化的业务需求，设计实现高效的任务卸载、服务缓存和资源分配方案。

深度强化学习(Deep Reinforcement Learning)具备深度学习和强化学习两者的优点，既能进行感知又能做出决策，相关的理论技术也被研究者们运用到无线通信领域。一些的主要成果包括：(1)基于深度强化学习的车载边缘计算中的任务调度(Zhan W,Luo C,Wang J,et al.Deep-reinforcement-learning-based offloading scheduling forvehicular edge computing.IEEE Internet of Things Journal,2020,7(6):5449-5465.)：研究了车载边缘计算场景中的计算卸载调度问题，以最小化任务长期处理成本为目标，建立了一个任务卸载和调度的随机优化问题，提出了一种基于渐进优化策略的深度强化学习算法，采用参数共享网络和卷积神经网络相结合的方法来逼近策略函数和价值函数。(2)多用户多计算接入点MEC网络的动态卸载：一种深度强化学习方法(Li C,Xia J,LiuF,et al.Dynamic offloading for multiuser muti-CAP MEC networks:a deepreinforcement learning approach[J].IEEE Transactions on Vehicular Technology,2021,70(3):2922-2927.)：针对多用户MEC网络中的动态卸载问题，首先将其抽象为马尔科夫决策过程，然后设计了一种基于DQN的卸载策略，使得用户可以动态地调整任务卸载的比例，保证了系统的性能。然而，传统的DRL算法需要终端设备将其私有数据传输到边缘服务器或者远程云中心进行处理或训练，而数据在传输和处理时可能会被第三方窃取或者篡改，使得用户的数据和敏感信息面临着泄露的风险。

因此，随着人们对隐私安全问题愈发重视，在设计出更加灵活高效的分布式任务卸载、资源分配和服务缓存策略的同时保护用户的隐私安全已成为当前研究中亟待解决的问题。

综上所述，现有技术问题是：传统的DRL算法需要终端设备将其私有数据传输到边缘服务器或者远程云中心进行处理或训练，而数据在传输和处理时可能会被第三方窃取或者篡改，使得用户的数据和敏感信息面临着泄露的风险。

发明内容

为解决上述技术问题，本发明提出一种移动边缘计算中具有隐私保护的智能体策略学习方法，包括：

S1：针对去中心化的MEC场景，建立一个边缘协同的计算卸载模型，包括服务缓存模型、任务卸载模型和系统成本模型；

S2：基于边缘协同的计算卸载模型，以最小化任务的处理成本为目标，在多维资源的约束下，建立一个联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题；

所述多维资源包括：计算资源和存储资源；

S3：将联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题抽象为部分可观测的马尔科夫决策过程；

S4：基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。

本发明的有益效果：

本发明研究了去中心化的MEC场景中的服务缓存和资源分配的同时考虑了用户隐私保护问题，首先，建立了一个边云协同的计算卸载模型，然后，以最小化任务的处理成本为目标，联合优化了任务卸载、服务缓存、算力资源分配和传输功率控制，并将其抽象为部分可观测的马尔科夫决策过程，进而提出了基于联邦学习方法的多智能体深度强化学习算法来自主学习任务卸载、服务缓存、算力资源分配和传输功率控制决策。在多智能体模型的集中训练阶段存在着数据安全和隐私泄露问题，采用了基于联邦学习的分布式模型训练方法。在训练过程中，当前actor网络和critic网络分别通过最大化策略梯度的方式和损失函数的方式来更新网络参数，目标actor网络和critic网络则采用软更新的方式进行更新，通过训练完成后的多智能体模型进行策略学习，充分保护了用户的数据和敏感信息的隐私安全。

附图说明

图1为本发明的MEC系统模型示意图；

图2为本发明的基于MADDPG的服务缓存和资源分配算法框图；

图3为本发明的基于联邦学习的模型训练；

图4为本发明的平均成本随着训练次数迭代的变化过程图；

图5为本发明的平均缓存命中率随着训练次数迭代的变化过程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种移动边缘计算中具有隐私保护的智能体策略学习方法，包括：

所述多维资源包括：计算资源和存储资源；

一、系统模型

如图1所示，本发明考虑一种典型的MEC系统，该场景中包含M个基站(BaseStation,BS)，定义基站集合为每个基站均配置了具有一定计算和存储能力的MEC服务器。在BSm的覆盖范围内有N_m个终端用户(End User,EU)，定义用户集合为系统运行在离散的时隙，定义为/>在时隙t，用户EUi_m产生任务定义为/>其中，/>表示任务的数据量大小，单位为bit；/>表示用户i_m任务处理的最大容忍时延；/>表示处理单位比特任务所需要的CPU周期数；/>表示处理任务所需的服务类型，则基站BSm下所有用户的任务集合可定义为/>

1.服务缓存模型

在本发明中，假设网络中有K种服务，定义服务类型集合为令a_k,m(t)∈{0,1}表示在时隙t时，BSm中服务k的缓存指示函数，a_k,m(t)＝1表示BSm缓存了服务k，否则BSm将不会缓存服务k。进一步地，BSm在t时隙的服务缓存决策可表示为服务缓存策略集合a_m(t)＝{a_1,m(t),…,a_k,m(t),…,a_K,m(t)}。受限于MEC服务器存储空间，缓存的服务所占据存储空间不能超过MEC服务器的存储容量。定义MECm的存储空间的大小为R_m，则有：其中，l_k表示服务k所占用的存储空间的大小。

2.任务卸载模型

用户EUi_m产生的任务可以在本地进行处理，也可以卸载到基站或者云端进行处理。因此，EUi_m产生的任务有以下几种处理方式：1)本地处理；2)卸载到关联基站BSm处理；3)通过关联基站BSm转发到附近基站BSn(且n≠m)处理；4)卸载到云端处理。定义为EUi_m的卸载决策变量。/>用户EUi的任务在本地处理，否则/>同样地，/>用户EUi_m的任务卸载到关联基站BSm处理，否则/> 用户EUi_m的任务通过基站BSn转发到基站BSm处理，否则/>用户EUi_m任务卸载到云端处理，否则/>且满足/>因此，在t时隙，EUi_m的任务卸载策略可以表示为/>则BSm下所有用户的任务卸载决策可表示为/>

1)本地处理

任务在本地处理时，令/>表示用户EUi_m的本地CPU频率，则任务的本地处理时延可表示为：/>对应地，任务处理能耗为：其中k是取决于芯片架构的有效电容系数。

2)卸载到关联基站处理

当基站BSm缓存了能够处理用户任务所需服务k，若用户EUi_m的任务可以直接卸载到基站BSm处理，即基站BSm带宽为B_m，总的上行链路信道数为H_m，则子信道带宽为/>根据香农公式，任务上传速率为：/>其中，/>表示用户EUi_m在时隙t的发送功率；/>表示用户EUi_m与BSm间的信道增益；σ²(t)表示时隙t下的加性高斯白噪声功率。

用户EUi_m的任务卸载到关联基站BSm处理时，任务处理时延包括传输时延和执行时延，即：其中，/>为基站BSm总的计算资源；/>为BSm在时隙t分配给用户EUi_m的CPU频率分配系数，满足/>表示BSm分配给用户EUi_m的CPU频率，则BSm的算力资源分配策略可以表示为

对应地，任务处理能耗为：其中，e_bs表示基站处理单位比特任务的能耗。

3)卸载到附近基站处理

若关联基站BSm没有缓存处理用户任务所需的服务k，而其附近的基站BSn缓存了服务k，则用户EUi_m的任务可以通过基站BSm转发到附近的基站BSn处理，即则BSm转发速率为：/>其中，P_m(t)表示BSm在时隙t的发送功率；G_m,n表示BSm与BSn间的信道增益。对应地，任务处理时延包括传输时延，转发时延和执行时延，即：/>

相应地，任务处理能耗为：

4)卸载到云端处理

若关联基站BSm没有缓存处理用户任务所需的服务k，用户EUi_m也可以选择将任务卸载到云端处理，即忽略任务执行时延和能耗。则任务处理时延为：其中，r_m,c(t)表示基站BSm到云端的传输速率。相应地，任务处理能耗为：/>其中，P_m,c(t)表示基站BSm到云端传输功率。

3.系统成本模型

给定任务卸载、计算资源分配和服务缓存决策，对应地，用户EUi_m的任务处理时延为：/>

对应地，任务处理能耗为：

则，处理用户EU i_m的任务的成本为：/>其中，/>和/>分别为时延和能耗的权重系数，满足：分别表示任务在本地处理时延、关联基站处理时延、附近基站处理时延及云端处理时延，/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站m转发到基站n处理、卸载到云端处理，/> 分别表示任务分别在本地处理、关联基站处理、附近基站处理与云端处理所对应的能耗。

二、问题描述

受限于服务器的资源(如计算和存储空间)，同时，任务卸载和资源分配相互耦合。鉴于此，本文以最小化任务的长期平均处理成本为目标，建立了服务缓存，算力资源分配和传输功率控制的联合优化问题。联合优化问题建模如下：

其中，a(t)＝{a₁(t),…,a_M(t)}表示基站服务缓存策略，b(t)＝{b₁(t),…,b_M(t)}表示任务卸载策略，β(t)＝{β₁(t),…,β_M(t)}表示基站算力资源分配策略，P(t)＝{P₁(t),P₂(t),…,P_M(t)}、表示传输功率控制决策，M表示基站数量，T表示时隙，Nm表示终端用户的数量，/>表示处理用户i_m的任务/>的成本，表示用户i_m的任务/>处理时延，a_k,m(t)表示基站m在t时隙的缓存决策服务k，l_k表示服务k所占用的存储空间的大小，R_m表示MEC场景下第m个基站服务器的存储空间的大小，/>表示基站m在时隙t分配给用户i_m的CPU频率分配系数，/> 分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站n转发到基站m处理、卸载到云端处理，K表示服务类型，N表示用户数量；约束/>表示任务处理时延不能超过最大容忍时延，约束/>表示缓存的服务不能超过BS的存储容量，约束/>表示分配的计算资源的总和不超过服务器总的计算能力，约束和约束表示用户仅选择一种方式来处理其任务。

三、基于联邦多智能体深度强化学习的问题求解

本发明设计一种基于联邦多智能体深度强化学习的分布式服务缓存和资源分配算法(Distributed service caching and resource allocation algorithm,DSCRA)，由基站作为智能体，学习任务卸载策略、服务缓存策略、算力资源分配策略以及传输功率控制策略，同时为用户提供隐私保护。考虑到本地模型的差异化，在参数聚合时使用注意力机制，为不同的本地模型分配不同的参数权重。

1问题转化

将上述成本最小化问题抽象为部分可观测的马尔科夫决策过程，由基站充当智能体，并定义元组描述上述马尔科夫博弈过程，其中/>表示全局的状态空间，时隙t的环境为全局状态/>为智能体的观测空间集合，是全局的动作空间集合，/>为奖励集合。在时隙t，智能体m根据本地观测/>采取策略π_m:/>选择对应的动作/>从而获得相应的奖励/>

1)状态空间

时隙t，环境状态可定义为其中，为基站BSm下所有用户的本地CPU频率集合；/>为与基站BSm下所有用户与BSm间的信道增益集合。时隙t，智能体m观测到的环境状态定义如下：/>

2)动作空间

智能体m根据观察到的环境状态o_m(t)和当前的策略π_m，从动作空间选择相应的动作，时隙t，智能体m的动作定义如下：a_m(t)＝{b_m(t),β_m(t),a_m(t),P_m(t)}，其中，b_m(t)表示BS_m下所有用户的任务卸载动作；β_m(t)表示BS_m的算力资源分配动作；a_m(t)表示BS_m的服务缓存动作；P_m(t)表示BS_m下所有用户的传输功率控制动作。

3)奖励函数

奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中，智能体在t-1时隙采取了某一动作，对应的奖励将会在t时隙返回给智能体。根据所获得的奖励，智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略，并且直接决定对应的任务卸载策略，基站的算力资源分配策略、服务缓存策略以及传输功率控制决策，因此奖励函数应根据原始优化问题进行设计。本文中奖励包含三部分：第一部分是任务处理成本的奖励，第二部分是任务处理时延满足时延约束的奖励，即：第三部分是缓存不超过边缘服务器存储容量限制的奖励，即：/>优化目标是最小化任务的长期平均处理成本，最大化长期回报，所以智能体m的累计奖励应为：/>其中H(·)是Heaviside阶跃函数，λ₁，λ₂为权重系数。

2DSCRA算法

如图2所示，MADDPG模型是一种基于actor-critic的算法。由基站作为智能体，每个智能体的actor网络和critic网络都具有两个深度神经网络，包含当前网络和目标网络，在训练阶段，actor网络和critic网络通过联邦学习更新网络参数：critic当前网络通过最小化损失函数来更新网络参数，actor当前网络基于critic当前网络计算得到的集中Q函数和它自身的观测信息通过最大化策略梯度来更新网络参数θ，actor目标网络和critic目标网络的参数通过软更新的方式进行更新，并使用注意力机制进行参数聚合。经验回放存储器用于保存与训练阶段的观测和动作相关的元组，D＝{o_m(t),a_m(t),r_m(t),o′_m(t+1)}，其中，o_m(t)表示t时隙智能体i的观测状态；a_m(t)表示t时隙智能体m基于当前观测o_m(t)所采取的动作；r_m(t)表示t时隙智能体m采取动作a_m(t)后获得的奖励；o′_m(t+1)表示智能体m在t+1时隙的状态。

分散执行阶段，时隙t，每个智能体的actor网络根据本地观测状态o_m(t)以及它自身的策略选择动作：/>其中，/>表示智能体m的观测状态集合，/>表示智能体m的动作决策集合，θ_m表示智能体m的actor当前网络参数。

在集中训练阶段，每个critic网络可以获得其他智能体的观测o_m(t)和动作a_m(t)，则智能体m的Q函数可表示为：

Q_m(o₁(t),o₂(t),…,o_M(t),a₁(t),a₂(t),…,a_M(t)；ω_m)

其中，Q_m()表示集中Q函数，o₁(t),o₂(t),…,o_M(t)分别表示每个智能体的观测状态，a₁(t),a₂(t),…,a_M(t)分别表示每个智能体采取的动作，ω_m表示critic当前网络参数。

Q函数从全局的角度来评估actor网络的动作，并且指导actor网络选择更优的动作。在训练时，critic网络通过最小化损失函数来更新网络参数，损失函数定义如下：

其中

y_m＝r_m+γQ′_m(o₁′(t+1),o′₂(t+1),…,o′_M(t+1),a′₁(t+1),a′₂(t+1),…,a′_M(t+1)；ω′_m)，γ为折扣因子。

同时，actor网络基于critic网络计算得到的集中Q函数和它自身的观测信息来更新网络参数θ，并输出动作a。actor网络参数θ通过最大化策略梯度来更新，即：

目标网络的参数通过软更新的方式进行更新，即：

其中，表示求梯度，J()表示需要优化的策略目标函数，表示累积奖励的期望，θ_m表示智能体m的actor当前网络参数，o_m(t)表示智能体m的观测状态，a_m(t)表示智能体m的动作决策，Q_m()表示集中Q函数，o₁(t),o₂(t),…,o_M(t)分别表示每个智能体的观测状态，a₁(t),a₂(t),…,a_M(t)分别表示每个智能体采取的动作，ω_m表示critic当前网络参数，表示智能体m自身的策略，θ′_m表示智能体m更新后的目标actor网络参数，ω′_m表示智能体m更新后的目标critic网络参数，/>与/>分别表示actor网络和critic网络更新系数。

3.基于联邦学习的模型训练

在MADDPG模型的集中训练阶段，存在着数据安全和隐私泄露问题，为了解决敏感信息泄露问题并减轻边缘的计算压力，同时提高网络性能，使用联邦学习进行训练，训练模型如图3所示：在初始阶段，基站从云中心处获得全局MADDPG模型然后基站再使用本地数据和全局模型训练本地模型/>然后将训练好的本地模型上传，并在云中心进行参数聚合。考虑到基站的本地模型的差异，在进行参数聚合时使用注意力机制，为不同的本地模型分配不同的参数。使用奖励和一些与设备相关的指标作为本地模型对全局模型的贡献。

加权联邦聚合问题可表述为：其中，ξ_m为权重因子，用于衡量局部对全局模型的贡献。对于智能体m，使用平均奖励、平均损失、缓存命中率来计算权重ξ_m。

平均奖励：智能体m的平均奖励为所有本地奖励r_m(t)的平均。

平均损失：智能体m的平均损失为训练过程中输出的损失函数的平均。

缓存命中率：平均缓存命中率为T个时隙内缓存命中率h_m的平均。

上述评价指标可描述为将评估指标向量K_m和智能体m的局部模型参数/>分别建模为注意力机制的键和值。模型的目标是获得一个更强大的智能体，以获得更大的奖励，更少的损失和更高的缓存命中率，则：/>

基站的输入包括Q、维度为d_k的键K_m和值计算Q和所有键的点积，并除以使用softmax函数获得值的权重，即权重因子ξ_m为：

从图4可以看出，随着训练次数的增加，任务的平均处理成本在不断地减小，并逐渐趋于稳定，最终达到收敛，DSCRA算法的成本最小，表明DSCRA算法可以做出更优的卸载和资源分配策略，从而获得更小的任务处理成本，实现了资源的按需分配，证明了该算法的有效性。从图5可以看出，随着训练次数的增加，缓存命中率曲线呈上升趋势，并最终达到收敛，且DSCRA的缓存命中率最大，证明了该算法的有效性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，包括：

所述多维资源包括：计算资源和存储资源；

2.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述去中心化的MEC场景，包括：

在MEC系统场景中包含M个基站(Base Station,BS)，定义基站集合为每个基站均配置了具有计算和存储能力的MEC服务器；在基站m的覆盖范围内有N_m个终端用户(End User,EU)，定义用户集合为/>系统运行在离散的时隙，定义为在时隙t，用户i_m产生任务定义为/>其中，/>表示任务的数据量大小，单位为bit，/>表示用户i_m任务处理的最大容忍时延，/>表示处理单位比特任务所需要的CPU周期数，/>表示处理任务所需的服务类型，则基站m下所有用户的任务集合可定义为/>

3.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述服务缓存模型，包括：

假设网络中有K种服务，定义服务类型集合为令a_k,m(t)∈{0,1}表示在时隙t时基站m中服务k的缓存指示函数，a_k,m(t)＝1表示基站m缓存了服务k，否则基站m将不会缓存服务k；基站m在t时隙的服务缓存决策可表示为服务缓存策略集合a_m(t)＝{a_1,m(t),…,a_k,m(t),…,a_K,m(t)}，受限于MEC服务器存储空间，缓存的服务所占据存储空间不能超过MEC服务器的存储容量，定义MEC场景下第m个基站服务器的存储空间的大小为R_m，则有：/>其中，l_k表示服务k所占用的存储空间的大小。

4.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述任务卸载模型，包括：

用户i_m产生的任务可以在本地进行处理，也可以卸载到基站或者云端进行处理，则定义用户i_m的任务卸载决策变量为其中，/>表示用户i的任务在本地处理，否则/>表示用户i_m的任务卸载到关联基站m处理，否则/>表示用户i_m的任务通过基站n转发到基站m处理，否则/>表示用户i_m任务卸载到云端处理，否则/>且满足/>因此，在t时隙，EUi_m的任务卸载策略可以表示为/>则基站m下所有用户的任务卸载决策可表示为/>

5.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述系统成本模型，包括：

给定任务卸载和服务缓存决策，用户i_m的任务处理时延为：/>对应地，任务处理能耗为：/>则处理用户i_m的任务的成本为：/>其中，/>和/>分别为时延和能耗的权重系数，满足：/>分别表示任务在本地处理时延、关联基站处理时延、附近基站处理时延及云端处理时延，/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站n转发到基站m处理、卸载到云端处理，/> 分别表示任务分别在本地处理、关联基站处理、附近基站处理与云端处理所对应的能耗。

6.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题，包括：

其中，a(t)＝{a₁(t),…,a_M(t)}表示基站服务缓存策略，b(t)＝{b₁(t),…,b_M(t)}表示任务卸载策略，β(t)＝{β₁(t),…,β_M(t)}表示基站算力资源分配策略，P(t)＝{P₁(t),P₂(t),…,P_M(t)}表示传输功率控制决策，M表示基站数量，T表示时隙，N_m表示终端用户的数量，表示处理用户i_m的任务/>的成本，/>表示用户i_m的任务/>处理时延，a_k,m(t)表示基站m在t时隙的缓存决策服务k，l_k表示服务k所占用的存储空间的大小，R_m表示MEC场景下第m个基站服务器的存储空间的大小，/>表示基站m在时隙t分配给用户i_m的CPU频率分配系数，/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站m转发到基站n处理、卸载到云端处理，K表示服务类型，N表示用户数量。

7.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，将上述任务处理成本最小化问题抽象为部分可观测的马尔科夫决策过程，包括：

由基站充当智能体，并定义元组描述上述马尔科夫博弈过程，其中，/>表示全局的状态空间，时隙t的环境为全局状态/> 为智能体的观测空间集合，/>是全局的动作空间集合，/>为奖励集合；在时隙t，智能体m根据本地观测/>采取策略π_m:/>选择对应的动作/>从而获得相应的奖励/>

8.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略，包括：

由基站作为智能体，每个智能体的actor网络和critic网络都具有两个深度神经网络，包含当前网络和目标网络，智能体还包括一个经验回放存储器

在训练阶段，actor网络和critic网络通过联邦学习更新网络参数：critic当前网络通过最小化损失函数来更新网络参数，actor当前网络基于critic当前网络计算得到的集中Q函数和它自身的观测信息通过最大化策略梯度来更新网络参数θ，actor目标网络和critic目标网络的参数通过软更新的方式进行更新，并使用注意力机制进行参数聚合；

在分散执行阶段，更新参数后的actor网络根据智能体的状态做出动作决策，更新参数后的critic网络则对actor网络做出的动作做出评估，并且指导actor网络选择更优的动作，经验回放存储器用于保存与训练阶段的观测和动作相关的元组，D＝{o_m(t),a_m(t),r_m(t),o′_m(t+1)}，其中，o_m(t)表示t时隙智能体m的观测状态，a_m(t)表示t时隙智能体m基于当前观测o_m(t)所采取的动作，r_m(t)表示t时隙智能体m采取动作a_m(t)后获得的奖励，o′_m(t+1)表示智能体m在t+1时隙的状态；

所述actor网络根据智能体的状态做出动作决策，包括：在分散执行阶段，时隙t内每个智能体的actor网络根据本地观测状态o_m(t)以及它自身的策略选择动作：其中，/>表示智能体m的观测状态集合，/>表示智能体m的动作决策集合，θ_m表示智能体m的actor当前网络参数；

所述动作决策包括：任务卸载、服务缓存、算力资源分配和传输功率控制策略。

9.根据权利要求8所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述集中Q函数，包括：

Q_m(o₁(t),o₂(t),…,o_M(t),a₁(t),a₂(t),…,a_M(t)；ω_m)

其中，Q_m( )表示集中Q函数，o₁(t),o₂(t),…,o_M(t)分别表示每个智能体的观测状态，a₁(t),a₂(t),…,a_M(t)分别表示每个智能体采取的动作，ω_m表示critic当前网络参数。

10.根据权利要求8所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法，其特征在于，所述actor、critic当前网络和actor、critic目标网络的参数更新，包括：

critic当前网络通过最小化损失函数来更新网络参数，损失函数包括：

actor当前网络参数θ通过最大化策略梯度来更新：

actor、critic目标网络的参数通过软更新的方式进行更新，包括：

其中，L_m(ω_m)表示损失函数，表示求梯度，J()表示需要优化的策略目标函数，/>表示累积奖励的期望，θ_m表示智能体m的actor当前网络参数，o_m(t)表示智能体m的观测状态，a_m(t)表示智能体m的动作决策，Q_m(表示集中Q函数，o₁(t),o₂(t),…,o_M(t)分别表示每个智能体的观测状态，a₁(t),a₂(t),…,a_M(t)分别表示每个智能体采取的动作，ym表示目标Q值函数，ω_m表示critic当前网络参数，/>表示智能体m自身的策略，θ′_m表示智能体m更新后的actor目标网络参数，ω′_m表示智能体m更新后的critic目标网络参数，/>与/>分别表示actor网络和critic网络更新系数。