CN114598667A - 一种基于联邦学习的高效设备选择与资源分配方法 - Google Patents

一种基于联邦学习的高效设备选择与资源分配方法 Download PDF

Info

Publication number
CN114598667A
CN114598667A CN202210236158.3A CN202210236158A CN114598667A CN 114598667 A CN114598667 A CN 114598667A CN 202210236158 A CN202210236158 A CN 202210236158A CN 114598667 A CN114598667 A CN 114598667A
Authority
CN
China
Prior art keywords
edge
agent
network
experience
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210236158.3A
Other languages
English (en)
Inventor
唐伦
汪智平
蒲昊
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210236158.3A priority Critical patent/CN114598667A/zh
Publication of CN114598667A publication Critical patent/CN114598667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/78Architectures of resource allocation
    • H04L47/783Distributed allocation of resources, e.g. bandwidth brokers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1023Server selection for load balancing based on a hash applied to IP addresses or costs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于联邦学习的高效设备选择与资源分配方法,属于移动通信领域,包括以下步骤:S1:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络参数,并按照学习步骤进行更新,实例化经验回放池;S2:部署体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:在参数更新阶段,协调边缘智能体,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。

Description

一种基于联邦学习的高效设备选择与资源分配方法
技术领域
本发明属于移动通信领域,涉及一种基于联邦学习的高效设备选择与资源分配方法。
背景技术
近年来,许多联邦学习方案成功地运用在移动边缘计算(Mobile EdgeComputing,MEC)网络场景中,特别是在工业物联网场景中,应用联邦学习可以在保证数据隐私的前提下有效地提高工业数据的利用率。工业物联网的智能工厂一般位于不同的地理区域,数据分布也存在异构性,为了为所有工厂提供服务,例如异常流量识别,因此需要一个全局检测模型来实现由各个工厂生成的数据的高效性能。然而,传统的两层架构,即云-端架构,由于参数传输过多,数据量集中上传至云端,因此导致了骨干网通信开销过高。
针对联邦学习过程中通信开销过大的问题,主要的解决思路通常以降低梯度交换通信频率以及降低单轮通信上传总比特数入手,使用降低通信频率的模型优化算法的确可以有效降低联邦学习的通信开销,但同时大大增加了系统算法复杂度,并且由于边缘设备自身计算资源与电量受限,因此这种优化方式局限性较大,不能广泛地应用。
现有的主要优化方案均集中于通信频率的优化,但实际上并不能在工业环境中广泛应用,因此亟需一种能够合理分配通信资源及设备选择参与的联合算法来解决联邦学习中通信开销过大问题的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于联邦学习的资源分配及边缘协同优化策略方法,通过合理选择设备参与及资源分配来降低联邦学习通信开销。
为达到上述目的,本发明提供如下技术方案:
一种基于联邦学习的高效设备选择与资源分配方法,包括以下步骤:
S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池
Figure BDA0003532435310000011
被实例化;
S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练。
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
进一步,步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他边缘智能体是不敏感的。
进一步,在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
进一步,步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:
S21:每个边缘智能体分别从各自的环境中观察本地状态信息;
S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;
S23:智能体获得奖励,并且个体环境演化到下一个状态;
S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
进一步,步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
进一步,对于边缘智能体m,具体更新步骤如下:
步骤1)通过最小化损失函数L(φm,v)来独立更新评价批评家网络的参数φm,v,
Figure BDA0003532435310000021
v表示优化因子:
Figure BDA0003532435310000022
其中,
Figure BDA0003532435310000031
表示为目标Q值,其中
Figure BDA0003532435310000032
Figure BDA0003532435310000033
分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;
Figure BDA0003532435310000034
Figure BDA0003532435310000035
分别是由评价网络和目标评价网络计算的状态-动作Q值;
在评价批评家网络和目标批评家网络中分别设置两个参数φm,v,φ′m,v,
Figure BDA0003532435310000036
以缓解政策改进中的正偏置,损耗计算只使用这两个Q值的最小值,从而得到用于更新批评家网络参数的随机梯度:
Figure BDA0003532435310000037
其中,
Figure BDA0003532435310000038
表示梯度计算;αm为最大熵目标权值;
Figure BDA0003532435310000039
表示智能体m实时策略。
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
Figure BDA00035324353100000310
其中,策略函数通过FCNN网络重新参数化表示为
Figure BDA00035324353100000311
其中E()表示期望函数,其中加入一个噪声εt,从而获得一个较低的方差估计,公式(4)重新表示为:
Figure BDA00035324353100000312
其中εt服从高斯分布,由此计算出策略的梯度:
Figure BDA00035324353100000313
步骤3)采用FCNN来自动设定最大熵目标的权值权值αm,αm的梯度通过以下目标来计算:
Figure BDA00035324353100000314
其中为
Figure BDA0003532435310000041
所有智能体的决策集合,H′为目标熵的值;
采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
进一步,每个边缘智能体的马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θm来描述边缘智能体m的策略
Figure BDA0003532435310000042
最优策略表示为
Figure BDA0003532435310000043
状态空间S表示为
Figure BDA0003532435310000044
其中
Figure BDA0003532435310000045
表示为设备在可用时延限制下的剩余可用值,即
Figure BDA0003532435310000046
表示为设备的剩余能耗,即
Figure BDA0003532435310000047
动作空间A表示为
Figure BDA0003532435310000048
am,t定义为一个二元量,ψm,n,t=1时,am,t才有意义;
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量;为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数定义为:
Figure BDA0003532435310000049
其中,t表示边缘端聚合次数,tc表示云中心聚合次数,Fem)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题;
首先,在边缘服务器上计算的损失值Fmm)被传输到云服务器;其次,由云服务器计算平均损耗
Figure BDA00035324353100000410
最后,将Fem)下发到每个边缘服务器,作为边缘智能体的奖励;U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策;在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
本发明的有益效果在于:本发明可以在保障工业物联网海量设备场景下,高精度完成分布式机器学习任务,并且避免了因分布式机器学习带来的设备之间数据隐私泄露的风险。此外,该方法以分布式的方式运行,可以有效地减少收集网络信息的系统信令开销,特别是在资源受限的网络中。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为一种基于联邦学习的高效设备选择与资源分配方法的流程示意图;
图2为基于多智能体强化学习算法结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,图1为本发明提供的一种基于联邦学习的高效设备选择与资源分配方法的流程示意图,具体包括以下步骤:
S1:初始化参数:在集中训练阶段开始时,初始化边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新。另外,一个经验回放池
Figure BDA0003532435310000051
被实例化。
S2:经验抽样:边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,。并由以下步骤得到。首先,边缘智能体分别从各自的环境中观察本地状态信息。然后,智能体的行动者网络根据本地信息独立地用自己的策略生成决策。然后,智能体获得奖励,并且个体环境演化到下一个状态。最后,将公式化的转换元组存储在经验回放池中,用于算法参数更新。
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,算法在从所有个体环境中收集经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数。
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
可选地,该方法中每个智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他智能体是不敏感的。采用集中训练,分散执行的机制。该机制允许策略在执行阶段不使用附加信息的情况下,利用附加信息简化训练过程。在集中训练阶段,除局部信息外,还可以相互获取其他信息,包括所有智能体的状态和动作。具体来说,边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策。批评家网络需要所有边缘主体的行为-状态对来生成Q值来评估决策。在去中心化执行阶段,行动者和批评家的网络参数不再需要更新。因此,每个边缘智能体的参与者只需要局部状态信息,决策就可以独立获得,而不需要知道其他智能体的状态信息。
可选地,步骤S2中,为了提高采样效率,采用了基于经验回放技术的off-policy技术。具体来说,部署一个具有一定内存容量的体验重放池
Figure BDA0003532435310000061
在采样阶段,所有智能体的经验都存储在
Figure BDA0003532435310000062
中。在训练阶段,每个智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练,这样可以有效地利用采样的经验实现收敛。
可选地,步骤S3中,引入了两个主要组件来提高算法学习性能:最大化熵学习;“行动者-批评家”网络架构;具体如下:
熵最大化:最大熵强化学习要求行动者网络同时最大化期望和策略分布的熵,也就是说,在保证任务成果的同时希望策略尽可能的随机,有效增强学习稳定性和探索性。有了这个最大化熵目标,智能体策略的随机性可以大大提高,同时可以探索更多可能的最优决策。
行动者-批评家网络:每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成。行动者网络用自己的策略πθm生成动作am,t。批评家网络分别计算了一对Q值来评估该政策。
对于边缘智能体m,具体更新步骤如下:
步骤1)通过最小化损失函数L(φm,v)来独立更新评价批评家网络的参数φm,v,
Figure BDA0003532435310000071
Figure BDA0003532435310000072
其中,
Figure BDA0003532435310000073
表示为目标Q值。其中
Figure BDA0003532435310000074
Figure BDA0003532435310000075
分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;
Figure BDA0003532435310000076
Figure BDA0003532435310000077
分别是由评价网络和目标评价网络计算的状态-动作Q值。此外,在评价批评家网络和目标批评家网络中分别设置了两个参数φm,v,φ′m,v,
Figure BDA0003532435310000078
以缓解政策改进中的正偏置。更重要的是,损耗计算只使用这两个Q值的最小值。因此,可以得到用于更新批评家网络参数的随机梯度,即:
Figure BDA0003532435310000079
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
Figure BDA00035324353100000710
其中,策略函数通过FCNN网络重新参数化表示为
Figure BDA00035324353100000711
其中加入一个噪声εt,从而获得一个较低的方差估计。因此,公式(4)可以重新表示为:
Figure BDA00035324353100000712
其中εt服从高斯分布。由此可以计算出策略的梯度,即:
Figure BDA00035324353100000713
步骤3)不采用人工选取权值αm,而是采用FCNN来自动设定最大熵目标的权值。αm的梯度可以通过以下目标来计算,即:
Figure BDA0003532435310000081
其中为
Figure BDA0003532435310000082
所有智能体的决策集合,H′为目标熵的值。
其中,为稳定学习过程,采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v,即:
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
本发明通过对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配来优化整体模型性能,建立了一个随机优化问题。但该问题是一个混合整数非线性优化问题,目标函数是隐函数,且能耗约束条件是时间相关,因此使用传统方法不易求解。但设备选择和资源分配以最小化长期评估损失为目标,因此可重新转化为一个马尔可夫决策过程。为了获得最优解,深度强化学习是一种具有较强表示能力的有效方法,可以有效地解决具有混合决策变量和时间相关约束的资源优化问题。然而,基于单智能体的深度强化算法通常需要一个全局服务器来收集分布式设备的所有状态信息,并观察整个网络环境,这会产生主干信令开销。为了解决这个问题,本发明采用深度多智能体强化算法,每个边缘服务器作为一个智能体,协同学习动态资源管理策略并解决问题如图2所示:
每个边缘服务器视为一个智能体,每个智能体都可以从各自的环境中观察状态,如设备的计算资源分配、剩余能量等信息,从而学习到该环境下的最优策略。马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数。我们使用权值参数θm来描述边缘服务器m的策略
Figure BDA0003532435310000083
最优策略表示为
Figure BDA0003532435310000084
在每一轮联邦学习迭代过程中,每个边缘智能体从各自的环境中收集状态信息,这些信息反映了设备的剩余时间和能量。因此,状态空间S可以表示为
Figure BDA0003532435310000085
其中
Figure BDA0003532435310000086
表示为设备在可用时延限制下的剩余可用值,即
Figure BDA0003532435310000087
表示为设备的剩余能耗,即
Figure BDA0003532435310000088
边缘智能体根据观察到的设备环境状态,协同决策出参与当前轮次迭代的设备,并分配用于支持联邦学习参数上传下发的上、下行频谱资源以及设备上的计算资源,因此,动作空间A可表示为
Figure BDA0003532435310000089
这里am,t定义为一个二元量,因为只有当设备选择参与联邦学习时,即ψm,n,t=1时,am,t才有意义,才会有后续的频谱及计算资源的分配。
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量。为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数可以定义为:
Figure BDA0003532435310000091
其中,Fem)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题。首先,在边缘服务器上计算的损失值Fmm)被传输到云服务器。其次,由云服务器计算平均损耗Fem)=1/M∑m∈MFmm)。最后,将Fem)下发到每个边缘服务器,作为边缘智能体的奖励。此外,U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件C1-C3下聚合任何模型参数的决策。
在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:包括以下步骤:
S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池
Figure FDA0003532435300000011
被实例化;
S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
2.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他边缘智能体是不敏感的。
3.根据权利要求2所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
4.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:
S21:每个边缘智能体分别从各自的环境中观察本地状态信息;
S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;
S23:智能体获得奖励,并且个体环境演化到下一个状态;
S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
5.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
6.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:对于边缘智能体m,具体更新步骤如下:
步骤1)通过最小化损失函数L(φm,v)来独立更新评价批评家网络的参数
Figure FDA0003532435300000021
v表示优化因子:
Figure FDA0003532435300000022
其中,
Figure FDA0003532435300000023
表示为目标Q值,其中
Figure FDA0003532435300000024
Figure FDA0003532435300000025
分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;
Figure FDA0003532435300000026
Figure FDA0003532435300000027
分别是由评价网络和目标评价网络计算的状态-动作Q值;
在评价批评家网络和目标批评家网络中分别设置两个参数
Figure FDA0003532435300000028
以缓解政策改进中的正偏置,损耗计算只使用这两个Q值的最小值,从而得到用于更新批评家网络参数的随机梯度:
Figure FDA0003532435300000029
其中,
Figure FDA00035324353000000210
表示梯度计算;αm为最大熵目标权值;
Figure FDA00035324353000000211
表示智能体m实时策略;
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
Figure FDA00035324353000000212
其中,策略函数通过FCNN网络重新参数化表示为
Figure FDA00035324353000000213
其中E()表示期望函数,其中加入一个高斯噪声εt,从而获得一个较低的方差估计,公式(4)重新表示为:
Figure FDA0003532435300000031
其中εt服从高斯分布,由此计算出策略的梯度:
Figure FDA0003532435300000032
步骤3)采用FCNN来自动设定最大熵目标的权值αm,αm的梯度通过以下目标来计算:
Figure FDA0003532435300000033
其中为
Figure FDA0003532435300000034
所有智能体的决策集合,H′为目标熵的值;
采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
7.根据权利要求6所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:每个边缘智能体的马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θm来描述边缘智能体m的策略
Figure FDA0003532435300000035
最优策略表示为
Figure FDA0003532435300000036
状态空间S表示为
Figure FDA0003532435300000037
其中
Figure FDA0003532435300000038
表示为设备在可用时延限制下的剩余可用值,即
Figure FDA0003532435300000039
Figure FDA00035324353000000310
表示为设备的剩余能耗,即
Figure FDA00035324353000000311
动作空间A表示为
Figure FDA00035324353000000312
am,t定义为一个二元量,ψm,n,t=1时,am,t才有意义;
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量;为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数定义为:
Figure FDA0003532435300000041
其中,t表示边缘端聚合次数,tc表示云中心全局聚合次数,Fem)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题;
首先,在边缘服务器上计算的损失值Fmm)被传输到云服务器;其次,由云服务器计算平均损耗Fem)=1/M∑m∈MFmm);最后,将Fem)下发到每个边缘服务器,作为边缘智能体的奖励;U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策;在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
CN202210236158.3A 2022-03-04 2022-03-04 一种基于联邦学习的高效设备选择与资源分配方法 Pending CN114598667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210236158.3A CN114598667A (zh) 2022-03-04 2022-03-04 一种基于联邦学习的高效设备选择与资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210236158.3A CN114598667A (zh) 2022-03-04 2022-03-04 一种基于联邦学习的高效设备选择与资源分配方法

Publications (1)

Publication Number Publication Date
CN114598667A true CN114598667A (zh) 2022-06-07

Family

ID=81809048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210236158.3A Pending CN114598667A (zh) 2022-03-04 2022-03-04 一种基于联邦学习的高效设备选择与资源分配方法

Country Status (1)

Country Link
CN (1) CN114598667A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115564056A (zh) * 2022-09-21 2023-01-03 中国电信股份有限公司 节点选择方法、装置、电子设备及计算机可读存储介质
CN117118689A (zh) * 2023-08-14 2023-11-24 广州科技贸易职业学院 一种不平衡数据物联网入侵检测方法及装置
CN117118689B (zh) * 2023-08-14 2024-05-17 广州科技贸易职业学院 一种不平衡数据物联网入侵检测方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1696371A1 (en) * 2005-02-23 2006-08-30 Sony Corporation Behavior control apparatus, behaviour control method, and program
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN113038616A (zh) * 2021-03-16 2021-06-25 电子科技大学 一种基于联邦学习的频谱资源管理分配方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113095488A (zh) * 2021-04-29 2021-07-09 电子科技大学 一种基于多智能体最大熵强化学习的合作博弈方法
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN113419849A (zh) * 2021-06-04 2021-09-21 国网河北省电力有限公司信息通信分公司 边缘计算节点选择方法及终端设备
CN113449458A (zh) * 2021-07-15 2021-09-28 海南大学 一种基于课程学习的多智能体深度确定性策略梯度方法
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN113643553A (zh) * 2021-07-09 2021-11-12 华东师范大学 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
CN113971089A (zh) * 2021-09-27 2022-01-25 国网冀北电力有限公司信息通信分公司 联邦学习系统设备节点选择的方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1696371A1 (en) * 2005-02-23 2006-08-30 Sony Corporation Behavior control apparatus, behaviour control method, and program
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN113038616A (zh) * 2021-03-16 2021-06-25 电子科技大学 一种基于联邦学习的频谱资源管理分配方法
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113095488A (zh) * 2021-04-29 2021-07-09 电子科技大学 一种基于多智能体最大熵强化学习的合作博弈方法
CN113419849A (zh) * 2021-06-04 2021-09-21 国网河北省电力有限公司信息通信分公司 边缘计算节点选择方法及终端设备
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN113643553A (zh) * 2021-07-09 2021-11-12 华东师范大学 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
CN113449458A (zh) * 2021-07-15 2021-09-28 海南大学 一种基于课程学习的多智能体深度确定性策略梯度方法
CN113971089A (zh) * 2021-09-27 2022-01-25 国网冀北电力有限公司信息通信分公司 联邦学习系统设备节点选择的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEQI ZHU: "Federated Multiagent Actor-critic Learning for age sensitive mobile-edge computing", 《IEEE INTERNET OF THINGS JOURNAL》, vol. 9, no. 2, pages 1053 - 1067, XP011896859, DOI: 10.1109/JIOT.2021.3078514 *
王惜民: "基于列别不平衡数据联邦学习的设备选择算法", 《计算机应用研究》, vol. 38, no. 10, pages 2968 - 2973 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115065728B (zh) * 2022-06-13 2023-12-08 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115564056A (zh) * 2022-09-21 2023-01-03 中国电信股份有限公司 节点选择方法、装置、电子设备及计算机可读存储介质
CN115564056B (zh) * 2022-09-21 2023-12-08 中国电信股份有限公司 节点选择方法、装置、电子设备及计算机可读存储介质
CN117118689A (zh) * 2023-08-14 2023-11-24 广州科技贸易职业学院 一种不平衡数据物联网入侵检测方法及装置
CN117118689B (zh) * 2023-08-14 2024-05-17 广州科技贸易职业学院 一种不平衡数据物联网入侵检测方法及装置

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
WO2021139537A1 (zh) 一种工业物联网中基于功率控制和资源分配的任务卸载方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN114598667A (zh) 一种基于联邦学习的高效设备选择与资源分配方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN114528304A (zh) 一种自适应客户端参数更新的联邦学习方法、系统及存储介质
Hamdi et al. LoRa-RL: Deep reinforcement learning for resource management in hybrid energy LoRa wireless networks
CN111629380A (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
Yu et al. Energy-aware device scheduling for joint federated learning in edge-assisted internet of agriculture things
Li et al. Robust computation offloading and trajectory optimization for multi-uav-assisted mec: A multi-agent drl approach
CN114189937A (zh) 基于深度强化学习的实时集中式无线网络调度方法和设备
CN111885551B (zh) 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN116112934A (zh) 一种基于机器学习的端到端网络切片资源分配方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
Li et al. Reinforcement learning based resource allocation for coverage continuity in high dynamic UAV communication networks
CN113316239B (zh) 一种基于强化学习的无人机网络发射功率分配方法及装置
Yuan et al. Joint multi-ground-user edge caching resource allocation for cache-enabled high-low-altitude-platforms integrated network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination