CN116546021A - 一种移动边缘计算中具有隐私保护的智能体策略学习方法 - Google Patents

一种移动边缘计算中具有隐私保护的智能体策略学习方法 Download PDF

Info

Publication number
CN116546021A
CN116546021A CN202310686533.9A CN202310686533A CN116546021A CN 116546021 A CN116546021 A CN 116546021A CN 202310686533 A CN202310686533 A CN 202310686533A CN 116546021 A CN116546021 A CN 116546021A
Authority
CN
China
Prior art keywords
agent
task
base station
representing
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310686533.9A
Other languages
English (en)
Inventor
李云
王碧
夏士超
姚枝秀
高倩
庄宏成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310686533.9A priority Critical patent/CN116546021A/zh
Publication of CN116546021A publication Critical patent/CN116546021A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于移动通信技术领域,具体涉及一种移动边缘计算中具有隐私保护的智能体策略学习方法,包括:建立边缘协同的计算卸载模型,包括服务缓存模型、任务卸载模型和系统成本模型;基于边缘协同的计算卸载模型,以最小化任务的处理成本为目标,建立联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题;将最优问题抽象为部分可观测的马尔科夫决策过程;基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。本发明通过建立了一个边云协同的计算卸载模型,智能体网络以基于联邦学习的训练的方式保护了用户的数据和敏感信息的隐私安全。

Description

一种移动边缘计算中具有隐私保护的智能体策略学习方法
技术领域
本发明属于移动通信技术领域,具体涉及一种移动边缘计算中具有隐私保护的智能体策略学习方法。
背景技术
移动边缘计算(Mobile Edge Computing,MEC)将用户任务的存储与处理推向移动通信网络的边缘,使得用户可以在网络边缘享受到高可靠、低时延的服务,为用户业务的高效处理提供了强有力的技术支撑,进而能够很好地满足用户高效、快速的服务质量要求。然而,随着通信技术和物联网技术的相互融合与蓬勃发展,边缘网络结构日益密集异构化。同时,在边缘网络环境中,业务的广域差异化、网络环境的高度动态化以及算网资源部署去中心化等特征,制约了网络服务缓存和算网资源分配的效率。MEC中的一个关键问题是针对去中心化的边缘网络结构和用户多样化的业务需求,设计实现高效的任务卸载、服务缓存和资源分配方案。
深度强化学习(Deep Reinforcement Learning)具备深度学习和强化学习两者的优点,既能进行感知又能做出决策,相关的理论技术也被研究者们运用到无线通信领域。一些的主要成果包括:(1)基于深度强化学习的车载边缘计算中的任务调度(Zhan W,Luo C,Wang J,et al.Deep-reinforcement-learning-based offloading scheduling forvehicular edge computing.IEEE Internet of Things Journal,2020,7(6):5449-5465.):研究了车载边缘计算场景中的计算卸载调度问题,以最小化任务长期处理成本为目标,建立了一个任务卸载和调度的随机优化问题,提出了一种基于渐进优化策略的深度强化学习算法,采用参数共享网络和卷积神经网络相结合的方法来逼近策略函数和价值函数。(2)多用户多计算接入点MEC网络的动态卸载:一种深度强化学习方法(Li C,Xia J,LiuF,et al.Dynamic offloading for multiuser muti-CAP MEC networks:a deepreinforcement learning approach[J].IEEE Transactions on Vehicular Technology,2021,70(3):2922-2927.):针对多用户MEC网络中的动态卸载问题,首先将其抽象为马尔科夫决策过程,然后设计了一种基于DQN的卸载策略,使得用户可以动态地调整任务卸载的比例,保证了系统的性能。然而,传统的DRL算法需要终端设备将其私有数据传输到边缘服务器或者远程云中心进行处理或训练,而数据在传输和处理时可能会被第三方窃取或者篡改,使得用户的数据和敏感信息面临着泄露的风险。
因此,随着人们对隐私安全问题愈发重视,在设计出更加灵活高效的分布式任务卸载、资源分配和服务缓存策略的同时保护用户的隐私安全已成为当前研究中亟待解决的问题。
综上所述,现有技术问题是:传统的DRL算法需要终端设备将其私有数据传输到边缘服务器或者远程云中心进行处理或训练,而数据在传输和处理时可能会被第三方窃取或者篡改,使得用户的数据和敏感信息面临着泄露的风险。
发明内容
为解决上述技术问题,本发明提出一种移动边缘计算中具有隐私保护的智能体策略学习方法,包括:
S1:针对去中心化的MEC场景,建立一个边缘协同的计算卸载模型,包括服务缓存模型、任务卸载模型和系统成本模型;
S2:基于边缘协同的计算卸载模型,以最小化任务的处理成本为目标,在多维资源的约束下,建立一个联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题;
所述多维资源包括:计算资源和存储资源;
S3:将联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题抽象为部分可观测的马尔科夫决策过程;
S4:基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。
本发明的有益效果:
本发明研究了去中心化的MEC场景中的服务缓存和资源分配的同时考虑了用户隐私保护问题,首先,建立了一个边云协同的计算卸载模型,然后,以最小化任务的处理成本为目标,联合优化了任务卸载、服务缓存、算力资源分配和传输功率控制,并将其抽象为部分可观测的马尔科夫决策过程,进而提出了基于联邦学习方法的多智能体深度强化学习算法来自主学习任务卸载、服务缓存、算力资源分配和传输功率控制决策。在多智能体模型的集中训练阶段存在着数据安全和隐私泄露问题,采用了基于联邦学习的分布式模型训练方法。在训练过程中,当前actor网络和critic网络分别通过最大化策略梯度的方式和损失函数的方式来更新网络参数,目标actor网络和critic网络则采用软更新的方式进行更新,通过训练完成后的多智能体模型进行策略学习,充分保护了用户的数据和敏感信息的隐私安全。
附图说明
图1为本发明的MEC系统模型示意图;
图2为本发明的基于MADDPG的服务缓存和资源分配算法框图;
图3为本发明的基于联邦学习的模型训练;
图4为本发明的平均成本随着训练次数迭代的变化过程图;
图5为本发明的平均缓存命中率随着训练次数迭代的变化过程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种移动边缘计算中具有隐私保护的智能体策略学习方法,包括:
S1:针对去中心化的MEC场景,建立一个边缘协同的计算卸载模型,包括服务缓存模型、任务卸载模型和系统成本模型;
S2:基于边缘协同的计算卸载模型,以最小化任务的处理成本为目标,在多维资源的约束下,建立一个联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题;
所述多维资源包括:计算资源和存储资源;
S3:将联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题抽象为部分可观测的马尔科夫决策过程;
S4:基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。
一、系统模型
如图1所示,本发明考虑一种典型的MEC系统,该场景中包含M个基站(BaseStation,BS),定义基站集合为每个基站均配置了具有一定计算和存储能力的MEC服务器。在BSm的覆盖范围内有Nm个终端用户(End User,EU),定义用户集合为系统运行在离散的时隙,定义为/>在时隙t,用户EUim产生任务定义为/>其中,/>表示任务的数据量大小,单位为bit;/>表示用户im任务处理的最大容忍时延;/>表示处理单位比特任务所需要的CPU周期数;/>表示处理任务所需的服务类型,则基站BSm下所有用户的任务集合可定义为/>
1.服务缓存模型
在本发明中,假设网络中有K种服务,定义服务类型集合为令ak,m(t)∈{0,1}表示在时隙t时,BSm中服务k的缓存指示函数,ak,m(t)=1表示BSm缓存了服务k,否则BSm将不会缓存服务k。进一步地,BSm在t时隙的服务缓存决策可表示为服务缓存策略集合am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。受限于MEC服务器存储空间,缓存的服务所占据存储空间不能超过MEC服务器的存储容量。定义MECm的存储空间的大小为Rm,则有:其中,lk表示服务k所占用的存储空间的大小。
2.任务卸载模型
用户EUim产生的任务可以在本地进行处理,也可以卸载到基站或者云端进行处理。因此,EUim产生的任务有以下几种处理方式:1)本地处理;2)卸载到关联基站BSm处理;3)通过关联基站BSm转发到附近基站BSn(且n≠m)处理;4)卸载到云端处理。定义为EUim的卸载决策变量。/>用户EUi的任务在本地处理,否则/>同样地,/>用户EUim的任务卸载到关联基站BSm处理,否则/> 用户EUim的任务通过基站BSn转发到基站BSm处理,否则/>用户EUim任务卸载到云端处理,否则/>且满足/>因此,在t时隙,EUim的任务卸载策略可以表示为/>则BSm下所有用户的任务卸载决策可表示为/>
1)本地处理
任务在本地处理时,令/>表示用户EUim的本地CPU频率,则任务的本地处理时延可表示为:/>对应地,任务处理能耗为:其中k是取决于芯片架构的有效电容系数。
2)卸载到关联基站处理
当基站BSm缓存了能够处理用户任务所需服务k,若用户EUim的任务可以直接卸载到基站BSm处理,即基站BSm带宽为Bm,总的上行链路信道数为Hm,则子信道带宽为/>根据香农公式,任务上传速率为:/>其中,/>表示用户EUim在时隙t的发送功率;/>表示用户EUim与BSm间的信道增益;σ2(t)表示时隙t下的加性高斯白噪声功率。
用户EUim的任务卸载到关联基站BSm处理时,任务处理时延包括传输时延和执行时延,即:其中,/>为基站BSm总的计算资源;/>为BSm在时隙t分配给用户EUim的CPU频率分配系数,满足/>表示BSm分配给用户EUim的CPU频率,则BSm的算力资源分配策略可以表示为
对应地,任务处理能耗为:其中,ebs表示基站处理单位比特任务的能耗。
3)卸载到附近基站处理
若关联基站BSm没有缓存处理用户任务所需的服务k,而其附近的基站BSn缓存了服务k,则用户EUim的任务可以通过基站BSm转发到附近的基站BSn处理,即则BSm转发速率为:/>其中,Pm(t)表示BSm在时隙t的发送功率;Gm,n表示BSm与BSn间的信道增益。对应地,任务处理时延包括传输时延,转发时延和执行时延,即:/>
相应地,任务处理能耗为:
4)卸载到云端处理
若关联基站BSm没有缓存处理用户任务所需的服务k,用户EUim也可以选择将任务卸载到云端处理,即忽略任务执行时延和能耗。则任务处理时延为:其中,rm,c(t)表示基站BSm到云端的传输速率。相应地,任务处理能耗为:/>其中,Pm,c(t)表示基站BSm到云端传输功率。
3.系统成本模型
给定任务卸载、计算资源分配和服务缓存决策,对应地,用户EUim的任务处理时延为:/>
对应地,任务处理能耗为:
则,处理用户EU im的任务的成本为:/>其中,/>和/>分别为时延和能耗的权重系数,满足:分别表示任务在本地处理时延、关联基站处理时延、附近基站处理时延及云端处理时延,/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站m转发到基站n处理、卸载到云端处理,/> 分别表示任务分别在本地处理、关联基站处理、附近基站处理与云端处理所对应的能耗。
二、问题描述
受限于服务器的资源(如计算和存储空间),同时,任务卸载和资源分配相互耦合。鉴于此,本文以最小化任务的长期平均处理成本为目标,建立了服务缓存,算力资源分配和传输功率控制的联合优化问题。联合优化问题建模如下:
其中,a(t)={a1(t),…,aM(t)}表示基站服务缓存策略,b(t)={b1(t),…,bM(t)}表示任务卸载策略,β(t)={β1(t),…,βM(t)}表示基站算力资源分配策略,P(t)={P1(t),P2(t),…,PM(t)}、表示传输功率控制决策,M表示基站数量,T表示时隙,Nm表示终端用户的数量,/>表示处理用户im的任务/>的成本,表示用户im的任务/>处理时延,ak,m(t)表示基站m在t时隙的缓存决策服务k,lk表示服务k所占用的存储空间的大小,Rm表示MEC场景下第m个基站服务器的存储空间的大小,/>表示基站m在时隙t分配给用户im的CPU频率分配系数,/> 分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站n转发到基站m处理、卸载到云端处理,K表示服务类型,N表示用户数量;约束/>表示任务处理时延不能超过最大容忍时延,约束/>表示缓存的服务不能超过BS的存储容量,约束/>表示分配的计算资源的总和不超过服务器总的计算能力,约束和约束表示用户仅选择一种方式来处理其任务。
三、基于联邦多智能体深度强化学习的问题求解
本发明设计一种基于联邦多智能体深度强化学习的分布式服务缓存和资源分配算法(Distributed service caching and resource allocation algorithm,DSCRA),由基站作为智能体,学习任务卸载策略、服务缓存策略、算力资源分配策略以及传输功率控制策略,同时为用户提供隐私保护。考虑到本地模型的差异化,在参数聚合时使用注意力机制,为不同的本地模型分配不同的参数权重。
1问题转化
将上述成本最小化问题抽象为部分可观测的马尔科夫决策过程,由基站充当智能体,并定义元组描述上述马尔科夫博弈过程,其中/>表示全局的状态空间,时隙t的环境为全局状态/>为智能体的观测空间集合,是全局的动作空间集合,/>为奖励集合。在时隙t,智能体m根据本地观测/>采取策略πm:/>选择对应的动作/>从而获得相应的奖励/>
1)状态空间
时隙t,环境状态可定义为 其中,为基站BSm下所有用户的本地CPU频率集合;/>为与基站BSm下所有用户与BSm间的信道增益集合。时隙t,智能体m观测到的环境状态定义如下:/>
2)动作空间
智能体m根据观察到的环境状态om(t)和当前的策略πm,从动作空间选择相应的动作,时隙t,智能体m的动作定义如下:am(t)={bm(t),βm(t),am(t),Pm(t)},其中,bm(t)表示BSm下所有用户的任务卸载动作;βm(t)表示BSm的算力资源分配动作;am(t)表示BSm的服务缓存动作;Pm(t)表示BSm下所有用户的传输功率控制动作。
3)奖励函数
奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中,智能体在t-1时隙采取了某一动作,对应的奖励将会在t时隙返回给智能体。根据所获得的奖励,智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略,并且直接决定对应的任务卸载策略,基站的算力资源分配策略、服务缓存策略以及传输功率控制决策,因此奖励函数应根据原始优化问题进行设计。本文中奖励包含三部分:第一部分是任务处理成本的奖励,第二部分是任务处理时延满足时延约束的奖励,即:第三部分是缓存不超过边缘服务器存储容量限制的奖励,即:/>优化目标是最小化任务的长期平均处理成本,最大化长期回报,所以智能体m的累计奖励应为:/>其中H(·)是Heaviside阶跃函数,λ1,λ2为权重系数。
2DSCRA算法
如图2所示,MADDPG模型是一种基于actor-critic的算法。由基站作为智能体,每个智能体的actor网络和critic网络都具有两个深度神经网络,包含当前网络和目标网络,在训练阶段,actor网络和critic网络通过联邦学习更新网络参数:critic当前网络通过最小化损失函数来更新网络参数,actor当前网络基于critic当前网络计算得到的集中Q函数和它自身的观测信息通过最大化策略梯度来更新网络参数θ,actor目标网络和critic目标网络的参数通过软更新的方式进行更新,并使用注意力机制进行参数聚合。经验回放存储器用于保存与训练阶段的观测和动作相关的元组,D={om(t),am(t),rm(t),o′m(t+1)},其中,om(t)表示t时隙智能体i的观测状态;am(t)表示t时隙智能体m基于当前观测om(t)所采取的动作;rm(t)表示t时隙智能体m采取动作am(t)后获得的奖励;o′m(t+1)表示智能体m在t+1时隙的状态。
分散执行阶段,时隙t,每个智能体的actor网络根据本地观测状态om(t)以及它自身的策略选择动作:/>其中,/>表示智能体m的观测状态集合,/>表示智能体m的动作决策集合,θm表示智能体m的actor当前网络参数。
在集中训练阶段,每个critic网络可以获得其他智能体的观测om(t)和动作am(t),则智能体m的Q函数可表示为:
Qm(o1(t),o2(t),…,oM(t),a1(t),a2(t),…,aM(t);ωm)
其中,Qm()表示集中Q函数,o1(t),o2(t),…,oM(t)分别表示每个智能体的观测状态,a1(t),a2(t),…,aM(t)分别表示每个智能体采取的动作,ωm表示critic当前网络参数。
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作。在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数定义如下:
其中
ym=rm+γQ′m(o1′(t+1),o′2(t+1),…,o′M(t+1),a′1(t+1),a′2(t+1),…,a′M(t+1);ω′m),γ为折扣因子。
同时,actor网络基于critic网络计算得到的集中Q函数和它自身的观测信息来更新网络参数θ,并输出动作a。actor网络参数θ通过最大化策略梯度来更新,即:
目标网络的参数通过软更新的方式进行更新,即:
其中,表示求梯度,J()表示需要优化的策略目标函数,表示累积奖励的期望,θm表示智能体m的actor当前网络参数,om(t)表示智能体m的观测状态,am(t)表示智能体m的动作决策,Qm()表示集中Q函数,o1(t),o2(t),…,oM(t)分别表示每个智能体的观测状态,a1(t),a2(t),…,aM(t)分别表示每个智能体采取的动作,ωm表示critic当前网络参数,表示智能体m自身的策略,θ′m表示智能体m更新后的目标actor网络参数,ω′m表示智能体m更新后的目标critic网络参数,/>与/>分别表示actor网络和critic网络更新系数。
3.基于联邦学习的模型训练
在MADDPG模型的集中训练阶段,存在着数据安全和隐私泄露问题,为了解决敏感信息泄露问题并减轻边缘的计算压力,同时提高网络性能,使用联邦学习进行训练,训练模型如图3所示:在初始阶段,基站从云中心处获得全局MADDPG模型然后基站再使用本地数据和全局模型训练本地模型/>然后将训练好的本地模型上传,并在云中心进行参数聚合。考虑到基站的本地模型的差异,在进行参数聚合时使用注意力机制,为不同的本地模型分配不同的参数。使用奖励和一些与设备相关的指标作为本地模型对全局模型的贡献。
加权联邦聚合问题可表述为:其中,ξm为权重因子,用于衡量局部对全局模型的贡献。对于智能体m,使用平均奖励、平均损失、缓存命中率来计算权重ξm
平均奖励:智能体m的平均奖励为所有本地奖励rm(t)的平均。
平均损失:智能体m的平均损失为训练过程中输出的损失函数的平均。
缓存命中率:平均缓存命中率为T个时隙内缓存命中率hm的平均。
上述评价指标可描述为将评估指标向量Km和智能体m的局部模型参数/>分别建模为注意力机制的键和值。模型的目标是获得一个更强大的智能体,以获得更大的奖励,更少的损失和更高的缓存命中率,则:/>
基站的输入包括Q、维度为dk的键Km和值计算Q和所有键的点积,并除以使用softmax函数获得值的权重,即权重因子ξm为:
从图4可以看出,随着训练次数的增加,任务的平均处理成本在不断地减小,并逐渐趋于稳定,最终达到收敛,DSCRA算法的成本最小,表明DSCRA算法可以做出更优的卸载和资源分配策略,从而获得更小的任务处理成本,实现了资源的按需分配,证明了该算法的有效性。从图5可以看出,随着训练次数的增加,缓存命中率曲线呈上升趋势,并最终达到收敛,且DSCRA的缓存命中率最大,证明了该算法的有效性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,包括:
S1:针对去中心化的MEC场景,建立一个边缘协同的计算卸载模型,包括服务缓存模型、任务卸载模型和系统成本模型;
S2:基于边缘协同的计算卸载模型,以最小化任务的处理成本为目标,在多维资源的约束下,建立一个联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题;
所述多维资源包括:计算资源和存储资源;
S3:将联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题抽象为部分可观测的马尔科夫决策过程;
S4:基于马尔科夫决策过程采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略。
2.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述去中心化的MEC场景,包括:
在MEC系统场景中包含M个基站(Base Station,BS),定义基站集合为每个基站均配置了具有计算和存储能力的MEC服务器;在基站m的覆盖范围内有Nm个终端用户(End User,EU),定义用户集合为/>系统运行在离散的时隙,定义为在时隙t,用户im产生任务定义为/>其中,/>表示任务的数据量大小,单位为bit,/>表示用户im任务处理的最大容忍时延,/>表示处理单位比特任务所需要的CPU周期数,/>表示处理任务所需的服务类型,则基站m下所有用户的任务集合可定义为/>
3.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述服务缓存模型,包括:
假设网络中有K种服务,定义服务类型集合为令ak,m(t)∈{0,1}表示在时隙t时基站m中服务k的缓存指示函数,ak,m(t)=1表示基站m缓存了服务k,否则基站m将不会缓存服务k;基站m在t时隙的服务缓存决策可表示为服务缓存策略集合am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)},受限于MEC服务器存储空间,缓存的服务所占据存储空间不能超过MEC服务器的存储容量,定义MEC场景下第m个基站服务器的存储空间的大小为Rm,则有:/>其中,lk表示服务k所占用的存储空间的大小。
4.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述任务卸载模型,包括:
用户im产生的任务可以在本地进行处理,也可以卸载到基站或者云端进行处理,则定义用户im的任务卸载决策变量为其中,/>表示用户i的任务在本地处理,否则/>表示用户im的任务卸载到关联基站m处理,否则/>表示用户im的任务通过基站n转发到基站m处理,否则/>表示用户im任务卸载到云端处理,否则/>且满足/>因此,在t时隙,EUim的任务卸载策略可以表示为/>则基站m下所有用户的任务卸载决策可表示为/>
5.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述系统成本模型,包括:
给定任务卸载和服务缓存决策,用户im的任务处理时延为:/>对应地,任务处理能耗为:/>则处理用户im的任务的成本为:/>其中,/>和/>分别为时延和能耗的权重系数,满足:/>分别表示任务在本地处理时延、关联基站处理时延、附近基站处理时延及云端处理时延,/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站n转发到基站m处理、卸载到云端处理,/> 分别表示任务分别在本地处理、关联基站处理、附近基站处理与云端处理所对应的能耗。
6.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述联合任务卸载、服务缓存、算力资源分配和传输功率控制的优化问题,包括:
其中,a(t)={a1(t),…,aM(t)}表示基站服务缓存策略,b(t)={b1(t),…,bM(t)}表示任务卸载策略,β(t)={β1(t),…,βM(t)}表示基站算力资源分配策略,P(t)={P1(t),P2(t),…,PM(t)}表示传输功率控制决策,M表示基站数量,T表示时隙,Nm表示终端用户的数量,表示处理用户im的任务/>的成本,/>表示用户im的任务/>处理时延,ak,m(t)表示基站m在t时隙的缓存决策服务k,lk表示服务k所占用的存储空间的大小,Rm表示MEC场景下第m个基站服务器的存储空间的大小,/>表示基站m在时隙t分配给用户im的CPU频率分配系数,/>分别表示用户i的任务在本地处理、卸载到关联基站m处理、通过基站m转发到基站n处理、卸载到云端处理,K表示服务类型,N表示用户数量。
7.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,将上述任务处理成本最小化问题抽象为部分可观测的马尔科夫决策过程,包括:
由基站充当智能体,并定义元组描述上述马尔科夫博弈过程,其中,/>表示全局的状态空间,时隙t的环境为全局状态/> 为智能体的观测空间集合,/>是全局的动作空间集合,/>为奖励集合;在时隙t,智能体m根据本地观测/>采取策略πm:/>选择对应的动作/>从而获得相应的奖励/>
8.根据权利要求1所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,采用基于联邦学习方法的多智能体深度强化学习算法自主学习任务卸载、服务缓存、算力资源分配和传输功率控制策略,包括:
由基站作为智能体,每个智能体的actor网络和critic网络都具有两个深度神经网络,包含当前网络和目标网络,智能体还包括一个经验回放存储器
在训练阶段,actor网络和critic网络通过联邦学习更新网络参数:critic当前网络通过最小化损失函数来更新网络参数,actor当前网络基于critic当前网络计算得到的集中Q函数和它自身的观测信息通过最大化策略梯度来更新网络参数θ,actor目标网络和critic目标网络的参数通过软更新的方式进行更新,并使用注意力机制进行参数聚合;
在分散执行阶段,更新参数后的actor网络根据智能体的状态做出动作决策,更新参数后的critic网络则对actor网络做出的动作做出评估,并且指导actor网络选择更优的动作,经验回放存储器用于保存与训练阶段的观测和动作相关的元组,D={om(t),am(t),rm(t),o′m(t+1)},其中,om(t)表示t时隙智能体m的观测状态,am(t)表示t时隙智能体m基于当前观测om(t)所采取的动作,rm(t)表示t时隙智能体m采取动作am(t)后获得的奖励,o′m(t+1)表示智能体m在t+1时隙的状态;
所述actor网络根据智能体的状态做出动作决策,包括:在分散执行阶段,时隙t内每个智能体的actor网络根据本地观测状态om(t)以及它自身的策略选择动作:其中,/>表示智能体m的观测状态集合,/>表示智能体m的动作决策集合,θm表示智能体m的actor当前网络参数;
所述动作决策包括:任务卸载、服务缓存、算力资源分配和传输功率控制策略。
9.根据权利要求8所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述集中Q函数,包括:
Qm(o1(t),o2(t),…,oM(t),a1(t),a2(t),…,aM(t);ωm)
其中,Qm( )表示集中Q函数,o1(t),o2(t),…,oM(t)分别表示每个智能体的观测状态,a1(t),a2(t),…,aM(t)分别表示每个智能体采取的动作,ωm表示critic当前网络参数。
10.根据权利要求8所述的一种移动边缘计算中具有隐私保护的智能体策略学习方法,其特征在于,所述actor、critic当前网络和actor、critic目标网络的参数更新,包括:
critic当前网络通过最小化损失函数来更新网络参数,损失函数包括:
actor当前网络参数θ通过最大化策略梯度来更新:
actor、critic目标网络的参数通过软更新的方式进行更新,包括:
其中,Lmm)表示损失函数,表示求梯度,J()表示需要优化的策略目标函数,/>表示累积奖励的期望,θm表示智能体m的actor当前网络参数,om(t)表示智能体m的观测状态,am(t)表示智能体m的动作决策,Qm(表示集中Q函数,o1(t),o2(t),…,oM(t)分别表示每个智能体的观测状态,a1(t),a2(t),…,aM(t)分别表示每个智能体采取的动作,ym表示目标Q值函数,ωm表示critic当前网络参数,/>表示智能体m自身的策略,θ′m表示智能体m更新后的actor目标网络参数,ω′m表示智能体m更新后的critic目标网络参数,/>与/>分别表示actor网络和critic网络更新系数。
CN202310686533.9A 2023-06-12 2023-06-12 一种移动边缘计算中具有隐私保护的智能体策略学习方法 Pending CN116546021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310686533.9A CN116546021A (zh) 2023-06-12 2023-06-12 一种移动边缘计算中具有隐私保护的智能体策略学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310686533.9A CN116546021A (zh) 2023-06-12 2023-06-12 一种移动边缘计算中具有隐私保护的智能体策略学习方法

Publications (1)

Publication Number Publication Date
CN116546021A true CN116546021A (zh) 2023-08-04

Family

ID=87452551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310686533.9A Pending CN116546021A (zh) 2023-06-12 2023-06-12 一种移动边缘计算中具有隐私保护的智能体策略学习方法

Country Status (1)

Country Link
CN (1) CN116546021A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828226A (zh) * 2023-08-28 2023-09-29 南京邮电大学 基于区块链的云边端协同视频流缓存系统
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117032832A (zh) * 2023-08-25 2023-11-10 重庆邮电大学 一种基于移动边缘计算的最小化任务调用成本卸载方法
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法
CN117295077A (zh) * 2023-11-24 2023-12-26 北京航空航天大学 一种多小区协同多址地空数据传输方法
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117544680A (zh) * 2024-01-04 2024-02-09 长春工程学院 一种基于电力物联网缓存放置方法、系统、设备及介质
CN117667360A (zh) * 2024-01-31 2024-03-08 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032832B (zh) * 2023-08-25 2024-03-08 重庆邮电大学 一种基于移动边缘计算的最小化任务调用成本卸载方法
CN117032832A (zh) * 2023-08-25 2023-11-10 重庆邮电大学 一种基于移动边缘计算的最小化任务调用成本卸载方法
CN116828226B (zh) * 2023-08-28 2023-11-10 南京邮电大学 基于区块链的云边端协同视频流缓存系统
CN116828226A (zh) * 2023-08-28 2023-09-29 南京邮电大学 基于区块链的云边端协同视频流缓存系统
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117041330B (zh) * 2023-10-10 2023-12-15 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法
CN117295077A (zh) * 2023-11-24 2023-12-26 北京航空航天大学 一种多小区协同多址地空数据传输方法
CN117295077B (zh) * 2023-11-24 2024-02-13 北京航空航天大学 一种多小区协同多址地空数据传输方法
CN117544680A (zh) * 2024-01-04 2024-02-09 长春工程学院 一种基于电力物联网缓存放置方法、系统、设备及介质
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117528657B (zh) * 2024-01-04 2024-03-19 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117544680B (zh) * 2024-01-04 2024-04-05 长春工程学院 一种基于电力物联网缓存放置方法、系统、设备及介质
CN117667360A (zh) * 2024-01-31 2024-03-08 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法
CN117667360B (zh) * 2024-01-31 2024-04-16 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法

Similar Documents

Publication Publication Date Title
CN116546021A (zh) 一种移动边缘计算中具有隐私保护的智能体策略学习方法
Dai et al. Edge intelligence for energy-efficient computation offloading and resource allocation in 5G beyond
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Chen et al. Dynamic task offloading for internet of things in mobile edge computing via deep reinforcement learning
CN111010684B (zh) 一种基于mec缓存服务的车联网资源分配方法
CN111726826A (zh) 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112202928A (zh) 传感边缘云区块链网络可信卸载协作节点选择系统及方法
CN111949409B (zh) 一种电力无线异构网中计算任务卸载方法及系统
Zhao et al. Towards cooperative caching for vehicular networks with multi-level federated reinforcement learning
CN111813539A (zh) 一种基于优先级与协作的边缘计算资源分配方法
CN113810233B (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN114422363B (zh) 一种无人机搭载ris辅助通信系统容量优化方法及装置
CN114143346A (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN114124955B (zh) 一种基于多智能体博弈的计算卸载方法
CN109788566B (zh) 基于深度增强学习的网络资源分配方法
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
Zuo et al. Delay-limited computation offloading for MEC-assisted mobile blockchain networks
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN113344255B (zh) 基于移动边缘计算和区块链的车载网络应用数据传输和计费优化方法
Zhang et al. A resource allocation scheme for real-time energy-aware offloading in vehicular networks with mec
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination