CN114598667A - 一种基于联邦学习的高效设备选择与资源分配方法 - Google Patents
一种基于联邦学习的高效设备选择与资源分配方法 Download PDFInfo
- Publication number
- CN114598667A CN114598667A CN202210236158.3A CN202210236158A CN114598667A CN 114598667 A CN114598667 A CN 114598667A CN 202210236158 A CN202210236158 A CN 202210236158A CN 114598667 A CN114598667 A CN 114598667A
- Authority
- CN
- China
- Prior art keywords
- edge
- agent
- network
- experience
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013468 resource allocation Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000005265 energy consumption Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000116 mitigating effect Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims 2
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/78—Architectures of resource allocation
- H04L47/783—Distributed allocation of resources, e.g. bandwidth brokers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1023—Server selection for load balancing based on a hash applied to IP addresses or costs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于联邦学习的高效设备选择与资源分配方法,属于移动通信领域,包括以下步骤:S1:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络参数,并按照学习步骤进行更新,实例化经验回放池;S2:部署体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:在参数更新阶段,协调边缘智能体,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
Description
技术领域
本发明属于移动通信领域,涉及一种基于联邦学习的高效设备选择与资源分配方法。
背景技术
近年来,许多联邦学习方案成功地运用在移动边缘计算(Mobile EdgeComputing,MEC)网络场景中,特别是在工业物联网场景中,应用联邦学习可以在保证数据隐私的前提下有效地提高工业数据的利用率。工业物联网的智能工厂一般位于不同的地理区域,数据分布也存在异构性,为了为所有工厂提供服务,例如异常流量识别,因此需要一个全局检测模型来实现由各个工厂生成的数据的高效性能。然而,传统的两层架构,即云-端架构,由于参数传输过多,数据量集中上传至云端,因此导致了骨干网通信开销过高。
针对联邦学习过程中通信开销过大的问题,主要的解决思路通常以降低梯度交换通信频率以及降低单轮通信上传总比特数入手,使用降低通信频率的模型优化算法的确可以有效降低联邦学习的通信开销,但同时大大增加了系统算法复杂度,并且由于边缘设备自身计算资源与电量受限,因此这种优化方式局限性较大,不能广泛地应用。
现有的主要优化方案均集中于通信频率的优化,但实际上并不能在工业环境中广泛应用,因此亟需一种能够合理分配通信资源及设备选择参与的联合算法来解决联邦学习中通信开销过大问题的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于联邦学习的资源分配及边缘协同优化策略方法,通过合理选择设备参与及资源分配来降低联邦学习通信开销。
为达到上述目的,本发明提供如下技术方案:
一种基于联邦学习的高效设备选择与资源分配方法,包括以下步骤:
S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练。
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
进一步,步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他边缘智能体是不敏感的。
进一步,在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
进一步,步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:
S21:每个边缘智能体分别从各自的环境中观察本地状态信息;
S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;
S23:智能体获得奖励,并且个体环境演化到下一个状态;
S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
进一步,步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
进一步,对于边缘智能体m,具体更新步骤如下:
其中,
表示为目标Q值,其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;和分别是由评价网络和目标评价网络计算的状态-动作Q值;
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
其中εt服从高斯分布,由此计算出策略的梯度:
步骤3)采用FCNN来自动设定最大熵目标的权值权值αm,αm的梯度通过以下目标来计算:
采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v:
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
进一步,每个边缘智能体的马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θm来描述边缘智能体m的策略最优策略表示为
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量;为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数定义为:
其中,t表示边缘端聚合次数,tc表示云中心聚合次数,Fe(ωm)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题;
首先,在边缘服务器上计算的损失值Fm(ωm)被传输到云服务器;其次,由云服务器计算平均损耗最后,将Fe(ωm)下发到每个边缘服务器,作为边缘智能体的奖励;U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策;在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
本发明的有益效果在于:本发明可以在保障工业物联网海量设备场景下,高精度完成分布式机器学习任务,并且避免了因分布式机器学习带来的设备之间数据隐私泄露的风险。此外,该方法以分布式的方式运行,可以有效地减少收集网络信息的系统信令开销,特别是在资源受限的网络中。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为一种基于联邦学习的高效设备选择与资源分配方法的流程示意图;
图2为基于多智能体强化学习算法结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,图1为本发明提供的一种基于联邦学习的高效设备选择与资源分配方法的流程示意图,具体包括以下步骤:
S2:经验抽样:边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,。并由以下步骤得到。首先,边缘智能体分别从各自的环境中观察本地状态信息。然后,智能体的行动者网络根据本地信息独立地用自己的策略生成决策。然后,智能体获得奖励,并且个体环境演化到下一个状态。最后,将公式化的转换元组存储在经验回放池中,用于算法参数更新。
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,算法在从所有个体环境中收集经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数。
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
可选地,该方法中每个智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他智能体是不敏感的。采用集中训练,分散执行的机制。该机制允许策略在执行阶段不使用附加信息的情况下,利用附加信息简化训练过程。在集中训练阶段,除局部信息外,还可以相互获取其他信息,包括所有智能体的状态和动作。具体来说,边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策。批评家网络需要所有边缘主体的行为-状态对来生成Q值来评估决策。在去中心化执行阶段,行动者和批评家的网络参数不再需要更新。因此,每个边缘智能体的参与者只需要局部状态信息,决策就可以独立获得,而不需要知道其他智能体的状态信息。
可选地,步骤S2中,为了提高采样效率,采用了基于经验回放技术的off-policy技术。具体来说,部署一个具有一定内存容量的体验重放池在采样阶段,所有智能体的经验都存储在中。在训练阶段,每个智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练,这样可以有效地利用采样的经验实现收敛。
可选地,步骤S3中,引入了两个主要组件来提高算法学习性能:最大化熵学习;“行动者-批评家”网络架构;具体如下:
熵最大化:最大熵强化学习要求行动者网络同时最大化期望和策略分布的熵,也就是说,在保证任务成果的同时希望策略尽可能的随机,有效增强学习稳定性和探索性。有了这个最大化熵目标,智能体策略的随机性可以大大提高,同时可以探索更多可能的最优决策。
行动者-批评家网络:每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成。行动者网络用自己的策略πθm生成动作am,t。批评家网络分别计算了一对Q值来评估该政策。
对于边缘智能体m,具体更新步骤如下:
其中,
表示为目标Q值。其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;和分别是由评价网络和目标评价网络计算的状态-动作Q值。此外,在评价批评家网络和目标批评家网络中分别设置了两个参数φm,v,φ′m,v,以缓解政策改进中的正偏置。更重要的是,损耗计算只使用这两个Q值的最小值。因此,可以得到用于更新批评家网络参数的随机梯度,即:
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
其中εt服从高斯分布。由此可以计算出策略的梯度,即:
步骤3)不采用人工选取权值αm,而是采用FCNN来自动设定最大熵目标的权值。αm的梯度可以通过以下目标来计算,即:
其中,为稳定学习过程,采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v,即:
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
本发明通过对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配来优化整体模型性能,建立了一个随机优化问题。但该问题是一个混合整数非线性优化问题,目标函数是隐函数,且能耗约束条件是时间相关,因此使用传统方法不易求解。但设备选择和资源分配以最小化长期评估损失为目标,因此可重新转化为一个马尔可夫决策过程。为了获得最优解,深度强化学习是一种具有较强表示能力的有效方法,可以有效地解决具有混合决策变量和时间相关约束的资源优化问题。然而,基于单智能体的深度强化算法通常需要一个全局服务器来收集分布式设备的所有状态信息,并观察整个网络环境,这会产生主干信令开销。为了解决这个问题,本发明采用深度多智能体强化算法,每个边缘服务器作为一个智能体,协同学习动态资源管理策略并解决问题如图2所示:
每个边缘服务器视为一个智能体,每个智能体都可以从各自的环境中观察状态,如设备的计算资源分配、剩余能量等信息,从而学习到该环境下的最优策略。马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数。我们使用权值参数θm来描述边缘服务器m的策略最优策略表示为
在每一轮联邦学习迭代过程中,每个边缘智能体从各自的环境中收集状态信息,这些信息反映了设备的剩余时间和能量。因此,状态空间S可以表示为其中表示为设备在可用时延限制下的剩余可用值,即表示为设备的剩余能耗,即
边缘智能体根据观察到的设备环境状态,协同决策出参与当前轮次迭代的设备,并分配用于支持联邦学习参数上传下发的上、下行频谱资源以及设备上的计算资源,因此,动作空间A可表示为这里am,t定义为一个二元量,因为只有当设备选择参与联邦学习时,即ψm,n,t=1时,am,t才有意义,才会有后续的频谱及计算资源的分配。
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量。为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数可以定义为:
其中,Fe(ωm)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题。首先,在边缘服务器上计算的损失值Fm(ωm)被传输到云服务器。其次,由云服务器计算平均损耗Fe(ωm)=1/M∑m∈MFm(ωm)。最后,将Fe(ωm)下发到每个边缘服务器,作为边缘智能体的奖励。此外,U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件C1-C3下聚合任何模型参数的决策。
在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:包括以下步骤:
S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
2.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他边缘智能体是不敏感的。
3.根据权利要求2所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
4.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:
S21:每个边缘智能体分别从各自的环境中观察本地状态信息;
S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;
S23:智能体获得奖励,并且个体环境演化到下一个状态;
S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
5.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
6.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:对于边缘智能体m,具体更新步骤如下:
其中,
表示为目标Q值,其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;和分别是由评价网络和目标评价网络计算的状态-动作Q值;
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
其中εt服从高斯分布,由此计算出策略的梯度:
步骤3)采用FCNN来自动设定最大熵目标的权值αm,αm的梯度通过以下目标来计算:
采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v:
φ′m,v=τφm,v+(1-τ)φ′m,v (8)
其中τ∈(0,1)为更新因子。
7.根据权利要求6所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:每个边缘智能体的马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θm来描述边缘智能体m的策略最优策略表示为
当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量;为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数定义为:
其中,t表示边缘端聚合次数,tc表示云中心全局聚合次数,Fe(ωm)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题;
首先,在边缘服务器上计算的损失值Fm(ωm)被传输到云服务器;其次,由云服务器计算平均损耗Fe(ωm)=1/M∑m∈MFm(ωm);最后,将Fe(ωm)下发到每个边缘服务器,作为边缘智能体的奖励;U是一个惩罚因子,它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策;在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236158.3A CN114598667A (zh) | 2022-03-04 | 2022-03-04 | 一种基于联邦学习的高效设备选择与资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236158.3A CN114598667A (zh) | 2022-03-04 | 2022-03-04 | 一种基于联邦学习的高效设备选择与资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114598667A true CN114598667A (zh) | 2022-06-07 |
Family
ID=81809048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210236158.3A Pending CN114598667A (zh) | 2022-03-04 | 2022-03-04 | 一种基于联邦学习的高效设备选择与资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114598667A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065728A (zh) * | 2022-06-13 | 2022-09-16 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN115564056A (zh) * | 2022-09-21 | 2023-01-03 | 中国电信股份有限公司 | 节点选择方法、装置、电子设备及计算机可读存储介质 |
CN117118689A (zh) * | 2023-08-14 | 2023-11-24 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
CN117118689B (zh) * | 2023-08-14 | 2024-05-17 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1696371A1 (en) * | 2005-02-23 | 2006-08-30 | Sony Corporation | Behavior control apparatus, behaviour control method, and program |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN112887999A (zh) * | 2021-01-27 | 2021-06-01 | 重庆邮电大学 | 一种基于分布式a-c的智能接入控制与资源分配方法 |
CN113038616A (zh) * | 2021-03-16 | 2021-06-25 | 电子科技大学 | 一种基于联邦学习的频谱资源管理分配方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
CN113095488A (zh) * | 2021-04-29 | 2021-07-09 | 电子科技大学 | 一种基于多智能体最大熵强化学习的合作博弈方法 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
WO2021156441A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system |
CN113419849A (zh) * | 2021-06-04 | 2021-09-21 | 国网河北省电力有限公司信息通信分公司 | 边缘计算节点选择方法及终端设备 |
CN113449458A (zh) * | 2021-07-15 | 2021-09-28 | 海南大学 | 一种基于课程学习的多智能体深度确定性策略梯度方法 |
CN113573324A (zh) * | 2021-07-06 | 2021-10-29 | 河海大学 | 工业物联网中协作式任务卸载和资源分配的联合优化方法 |
CN113643553A (zh) * | 2021-07-09 | 2021-11-12 | 华东师范大学 | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 |
CN113971089A (zh) * | 2021-09-27 | 2022-01-25 | 国网冀北电力有限公司信息通信分公司 | 联邦学习系统设备节点选择的方法及装置 |
-
2022
- 2022-03-04 CN CN202210236158.3A patent/CN114598667A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1696371A1 (en) * | 2005-02-23 | 2006-08-30 | Sony Corporation | Behavior control apparatus, behaviour control method, and program |
WO2021156441A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN112887999A (zh) * | 2021-01-27 | 2021-06-01 | 重庆邮电大学 | 一种基于分布式a-c的智能接入控制与资源分配方法 |
CN113038616A (zh) * | 2021-03-16 | 2021-06-25 | 电子科技大学 | 一种基于联邦学习的频谱资源管理分配方法 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
CN113095488A (zh) * | 2021-04-29 | 2021-07-09 | 电子科技大学 | 一种基于多智能体最大熵强化学习的合作博弈方法 |
CN113419849A (zh) * | 2021-06-04 | 2021-09-21 | 国网河北省电力有限公司信息通信分公司 | 边缘计算节点选择方法及终端设备 |
CN113573324A (zh) * | 2021-07-06 | 2021-10-29 | 河海大学 | 工业物联网中协作式任务卸载和资源分配的联合优化方法 |
CN113643553A (zh) * | 2021-07-09 | 2021-11-12 | 华东师范大学 | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 |
CN113449458A (zh) * | 2021-07-15 | 2021-09-28 | 海南大学 | 一种基于课程学习的多智能体深度确定性策略梯度方法 |
CN113971089A (zh) * | 2021-09-27 | 2022-01-25 | 国网冀北电力有限公司信息通信分公司 | 联邦学习系统设备节点选择的方法及装置 |
Non-Patent Citations (2)
Title |
---|
ZHEQI ZHU: "Federated Multiagent Actor-critic Learning for age sensitive mobile-edge computing", 《IEEE INTERNET OF THINGS JOURNAL》, vol. 9, no. 2, pages 1053 - 1067, XP011896859, DOI: 10.1109/JIOT.2021.3078514 * |
王惜民: "基于列别不平衡数据联邦学习的设备选择算法", 《计算机应用研究》, vol. 38, no. 10, pages 2968 - 2973 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065728A (zh) * | 2022-06-13 | 2022-09-16 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN115065728B (zh) * | 2022-06-13 | 2023-12-08 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN115564056A (zh) * | 2022-09-21 | 2023-01-03 | 中国电信股份有限公司 | 节点选择方法、装置、电子设备及计算机可读存储介质 |
CN115564056B (zh) * | 2022-09-21 | 2023-12-08 | 中国电信股份有限公司 | 节点选择方法、装置、电子设备及计算机可读存储介质 |
CN117118689A (zh) * | 2023-08-14 | 2023-11-24 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
CN117118689B (zh) * | 2023-08-14 | 2024-05-17 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
WO2021139537A1 (zh) | 一种工业物联网中基于功率控制和资源分配的任务卸载方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
CN114598667A (zh) | 一种基于联邦学习的高效设备选择与资源分配方法 | |
CN112598150B (zh) | 一种在智能电厂中基于联邦学习提升火灾检测效果的方法 | |
CN114528304A (zh) | 一种自适应客户端参数更新的联邦学习方法、系统及存储介质 | |
Hamdi et al. | LoRa-RL: Deep reinforcement learning for resource management in hybrid energy LoRa wireless networks | |
CN111629380A (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN110233755B (zh) | 一种物联网中雾计算的计算资源和频谱资源分配方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
Yu et al. | Energy-aware device scheduling for joint federated learning in edge-assisted internet of agriculture things | |
Li et al. | Robust computation offloading and trajectory optimization for multi-uav-assisted mec: A multi-agent drl approach | |
CN114189937A (zh) | 基于深度强化学习的实时集中式无线网络调度方法和设备 | |
CN111885551B (zh) | 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN116112488A (zh) | 一种面向mec网络的细粒度任务卸载及资源分配方法 | |
CN116193516A (zh) | 一种物联网场景下用于高效联邦学习的成本优化方法 | |
CN116112934A (zh) | 一种基于机器学习的端到端网络切片资源分配方法 | |
CN114022731A (zh) | 基于drl的联邦学习节点选择方法 | |
CN116137724A (zh) | 一种基于移动边缘计算的任务卸载及资源分配方法 | |
Li et al. | Reinforcement learning based resource allocation for coverage continuity in high dynamic UAV communication networks | |
CN113316239B (zh) | 一种基于强化学习的无人机网络发射功率分配方法及装置 | |
Yuan et al. | Joint multi-ground-user edge caching resource allocation for cache-enabled high-low-altitude-platforms integrated network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |