CN116389270A - 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 - Google Patents
联邦学习中基于drl联合优化客户端选择和带宽分配的方法 Download PDFInfo
- Publication number
- CN116389270A CN116389270A CN202310325579.8A CN202310325579A CN116389270A CN 116389270 A CN116389270 A CN 116389270A CN 202310325579 A CN202310325579 A CN 202310325579A CN 116389270 A CN116389270 A CN 116389270A
- Authority
- CN
- China
- Prior art keywords
- client
- round
- representing
- training
- bandwidth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005457 optimization Methods 0.000 title description 9
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000005265 energy consumption Methods 0.000 claims abstract description 19
- 238000009826 distribution Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 230000007786 learning performance Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0896—Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,称作CSBWA,本发明制定了一个优化问题,旨在最小化系统总成本,定义为训练时间和能量消耗的加权和。通过联合优化客户端选择和带宽分配,可以利用更少的时间成本和能耗来确保FL的长期性能。该方法依赖基于DRL的REINFORCE算法,将观察到的客户端状态、历史带宽信息输入到策略网络中,并根据反馈奖励自动执行有效的客户端调度及带宽分配策略。将CSBWA应用到数据集MNIST、Fashion‑MNIST、CIFAR10上训练时,与另四种先进的方法相比,CSBWA在保证无线联邦学习模型性能的同时,有效地降低了时间成本和能耗。
Description
技术领域
本发明涉及计算机技术领域,涉及联邦学习模型训练算法与深度强化学习模型训练的交叉领域,是联邦学习中一种基于DRL联合优化客户端选择和带宽分配的方法。
背景技术
涉及两大块背景技术:联邦学习,深度强化学习。
1)联邦学习
当下,亿万级的边缘设备被连接到互联网,并且产生的海量数据可以被用来训练更强大且精确的模型。为了充分挖掘海量边缘数据的价值,联邦学习被视为一种最具潜力的解决方案,其最大的优势在于可以在保护客户端数据隐私安全的基础上联合多方的数据。但是在联邦学习经典部署场景——无线联邦学习网络(WFLNs)中,FL需要强大的计算能力、通信带宽以及存储空间,这无疑限制了联邦学习在资源受限的无线网络环境下的部署。
考虑到WFLNs中有限的通信资源,提高模型训练效率的一个直接方法是在FL训练过程中设计一个高效地客户选择策略。如有相关工作考虑到客户端选择的公平性,设计了一个保证公平的算法;但是,这些工作较少考虑到客户的数据样本的质量。有工作考虑根据客户端的数据样本偏差来选择客户端,但没有充分考虑到客户端的异构性。
在FL的迭代分布式训练过程中,服务器与客户端之间会经常传输高容量的模型权值或更新,因此设计一种高效的通信管理机制对提高FL训练效率具有重要意义。有工作描述了一种基于二分的迭代策略,以获得一个资源分配方案,优化最大的训练时间,同时消耗更少的能量,然而这些工作指定所有客户都参与每一轮的FL训练,没有考虑到带宽约束。
2)基于深度强化学习的调度优化
深度强化学习(DRL)是一种机器学习,是把深度学习中的神经网络引入强化学习后得到的模型,其中智能体(Agent)通过执行操作(Action)和查看回报值(Reward)来学习如何在环境中采取最佳的动作或策略并适应环境。马尔可夫决策过程(Markov DecisionProcesses,MDP)是对强化学习中智能体所处的环境的一个建模,强化学习中几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。一些工作表明DRL广泛应用于作业调度和资源分配等调度工作领域,以促进系统自动化管理。有部分工作可以在有限的预算范围内,通过考虑到影响FL学习性能的多个特征,基于DRL执行客户端选择或者计算资源的分配。然而,这些工作并没有考虑到联合优化客户端选择及带宽分配来进一步提高效率。
发明内容
本发明的目的是提供一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,旨在尽可能降低联邦学习的训练和通信开销的同时,保证FL的性能。
实现本发明目的的具体技术方案是:
一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,特点是该方法包括如下步骤:
S1、联邦学习(FL)进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型基于公式进行加权平均,得到更新的全局模型wj,其中Di表示客户端i的本地数据集大小,/>表示客户端i在第j-1轮的本地模型,K表示被选择的客户端数量;
S2、服务器将全局模型wj(j=0,1,…)下发给所有的客户端,客户端总数为N;
Di:客户端i的本地数据集大小,在FL模型训练之前可直接获得;
在第j轮训练中客户端i的数据质量;所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型;然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值;一个更偏态的数据分布反映为一个较大的损失值,采用损失值lossi来表示数据分布质量/>
在第j-1轮训练中分配给客户端i的上传带宽;未来的网络带宽与历史上的带宽信息有关;同时,带宽信息是影响系统成本的主要因素,因此考虑将前一个时间窗的带宽信息/>添加到状态集中;当j=1,在最大带宽(最大带宽表示为B)限制下,给每个客户端分配B/N的带宽;对于后续的轮次,Agent在第j-1轮作出了决策给所选的客户端i分配了带宽,则/>
S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,其中pi表示策略网络输出客户端i的概率值,即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b;
S5、每个客户端i,i∈K,用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型再通过/>上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj;
S6、Agent计算奖励值rj+1;
S7、重复步骤S1-S6,直到accj达到设定的目标精度Γ,一个回合即episode结束,策略网络更新其网络参数θ,具体包括:
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值;α,β分别表示权重因子,用于调整目标函数的偏好,α,β∈[0,1],且α+β=1;其中Tj,Ej计算如下:
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输的模型大小;Vi j表示客户端i上传模型的传输速率;/>表示客户端i在第j轮的本地训练时间成本,/>表示客户端i在第j轮的通信时间;/>表示客户端i在第j轮的本地训练能量消耗,/>表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加;对策略网络的参数进行损失计算:
步骤S3所述Agent基于REINFORCE算法作出决策,选择出K个客户端并给选择出的客户端分配对应的上传带宽;该步骤中输入策略网络的状态集综合考虑到了不同客户端的异构性,如计算异构性和数据异构性,并且进一步的基于算法给选择出的客户端分配相应的带宽,有利于更加充分且高效地利用带宽资源,因此该方法可以利用较少的时间成本和能耗来确保FL的长期性能。
本发明考虑采用基线的REINFORCE算法来更新策略网络是因为如果得到的奖励总是正的,那么当更新时,概率会增加,但增加的程度会有所不同。而在实际采样中,在一定时间只能采样少数动作,有些动作不能采样。一些被采样的动作会不断增加其概率,而未被采样的动作的概率会降低。这显然是不合理的。因此,使用基于基线的REINFORCE算法,通过从总奖励中减去基线,不会影响更新期望,而会影响更新方差,这可以帮助算法更快地收敛。在式(8)中,如果对一个动作序列进行采样得到的总回报G优于基线,则当梯度更新时,其概率会增加,即该动作序列得到增强。
本发明的有益效果包括:
1)考虑到WFLNs中有限的通信带宽和客户异构性,本发明将联合客户端选择和带宽分配问题进行形式化,使得使用较低的时间成本和能耗的同时保证FL的长期性能。
2)本发明设计了一个FL方法CSBWA,并实现了该方法以优化FL训练过程,通过将整个联合优化过程建模为一个MDP过程,本发明仅使用客户端信息和当前可用的无线信道信息,使用基于DRL的REINFORCE算法即可制定有效的联合优化策略。
附图说明
图1为本发明的流程图;
图2为本发明图示化流程示意图;
图3为策略网络更新流程图;
图4为DRL智能体训练过程示意图;
图5为本发明在三个任务训练达到目标精度所需的时间开销实验结果示例图;
图6为本发明在三个任务训练达到目标精度所需的能量开销实验结果示例图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明为一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法,该方法包括如下步骤:
S1、服务端初始化全局模型w0/服务器将移动端接收到的局部模型加权平均得到新的全局模型wj;
S2、服务器将全局模型w0/wj下发给所有有效客户端;
S5、服务器聚合所有被选择客户端上传的局部模型,更新策略网络参数:
S2、服务器将全局模型w0/wj下发给所有有效客户端;
S3、Agent根据Policy network作出决策,具体包括:
Di:客户端i的数据样本量在FL模型训练之前可直接获得;
每个客户端的数据质量。不平衡的数据分布会显著降低模型的学习性能,因此选择具有高质量(尽可能均匀分布)数据样本的客户参与训练轮,有利于平衡不良数据集的影响。为了反映客户端数据分布的偏态,所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型。然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值。一个更偏态的数据分布反映为一个较大的损失值。因此,采用损失值lossi来表示数据分布质量。
因为未来的网络带宽与历史上的带宽信息有关。同时,带宽信息是影响系统成本的主要因素,本发明将前一个时间窗的带宽信息/>添加到状态集中。当j=1,在最大带宽限制下,随机将一定的带宽分配给每个客户端。对于后续的轮次,由于Agent做出决策给所选客户端分配了相应带宽,因此可以存储上一个时间戳的带宽信息。
S4、每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型,再通过bi上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj,然后Agent计算奖励值rj+1。
重复S1-S4直到全局模型达到目标精度Γ,然后更新策略网络参数θ。策略网络更新具体包括:
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值。其中Tj,Ej计算如下:
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输模型大小。Vi j表示客户端i上传模型的传输速率;/>表示客户端i在第j轮的本地训练时间成本,/>表示客户端i在第j轮的通信时间;/>表示表示客户端i在第j轮的本地训练能量消耗,/>表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加。对策略网络的参数进行损失计算:
本发明即CSBWA依靠基于DRL的强化算法来自动优化客户端选择和带宽分配策略。在决策过程中,考虑到了每个客户端的数据样本大小、数据质量、计算能力和可用的历史带宽信息,可以采用较低的时间成本和能耗,并保证FL的长期学习性能。
实施例
参阅附图1,为本发明的流程图。
考虑一个典型的联邦学习方法,设计总共有100个客户端,每个通信轮次中随机选取10个客户端参与训练,每个客户端每轮在本地数据集上使用SGD优化器迭代5次。如附图2所示,本实施例提供了一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法,包括:
S1、服务端初始化全局模型w0/服务器将移动端接收到的局部模型加权平均得到新的全局模型wj;具体包括:FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型加权平均得到更新的全局模型;
S2、服务器将全局模型w0/wj下发给所有有效客户端;
Di:客户端i的数据样本量在FL模型训练之前可直接获得;
每个客户端的数据质量。不平衡的数据分布会显著降低模型的学习性能,因此选择具有高质量(尽可能均匀分布)数据样本的客户参与训练轮,有利于平衡不良数据集的影响。为了反映客户端数据分布的偏态,所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型。然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值。一个更偏态的数据分布反映为一个较大的损失值。因此,采用损失值lossi来表示数据分布质量。
因为未来的网络带宽与历史上的带宽信息有关。同时,带宽信息是影响系统成本的主要因素,本发明将前一个时间窗的带宽信息/>添加到状态集中。当j=1,在最大带宽限制下,随机将一定的带宽分配给每个客户端。对于后续的轮次,由于Agent做出决策给所选客户端分配了相应带宽,因此可以存储上一个时间戳的带宽信息。
S4、被选择的客户端用本地数据集训练S2下载的全局模型,得到更新的局部模型根据S3分配的带宽每个被选中的客户端上传局部模型;服务器聚合所有被选择客户端上传的局部模型;具体为:每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型,再通过bi上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj,然后Agent计算奖励值rj+1。
重复S1-S4直到全局模型达到目标精度Γ,然后更新策略网络参数θ,更新过程如附图3所示。策略网络更新具体包括:
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值。其中Tj,Ej计算如下:
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输模型大小。Vi j表示客户端i上传模型的传输速率;/>表示客户端i在第j轮的本地训练时间成本,/>表示客户端i在第j轮的通信时间;/>表示表示客户端i在第j轮的本地训练能量消耗,/>表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加。对策略网络的参数进行损失计算:
实验验证:
为了验证本发明的通用性,实验选取了两个不同的典型网络:CNN(两个5×5的卷积层),LeNet-5(由两个卷积层和三个全连接层构成)。本实施例使用CNN进行MNIST分类任务;使用LeNet-5进行Fashion-MNIST和CIFAR-10分类任务。实验中有效客户端N=100,选择客户端数量K=10。
设置客户端本地训练采用SGD优化器,其动量为0.9,权重衰减为5e-4,学习率从0.1开始,并分别在[0.3,0.6,0.8]×总轮次时以衰减10倍。在数据分布上,实验同时考虑了数据分布均匀(IID)和数据分布不均匀(Non-IID)两种情况,其中针对数据分布不均匀的设定为:1)当每个客户端按不同的百分比包含所有类样本时,对于每个客户端,σ=0.5表示50%的数据样本属于1个标签,其余50%的数据样本包含9个标签;σ=0.7表示70%的数据样本属于1个标签,其余30%的数据样本包含9个标签。3)H=2表明每个客户端包含两类数据样本。
附图4报告了本实施例(简写为CSBWA)在数据分布均匀和不均匀两种场景下,使用两种典型模型所进行的三种不同任务的总的奖励变化趋势,图a表示在MNIST数据集上训练收敛时Agent获得的总奖励,图b表示在Fashion-MNIST数据集上训练收敛时Agent获得的总奖励,图c表示在CIFAR-10数据集上训练收敛时Agent获得的总奖励。对于每个学习任务,可以观察到,在训练几百回合后,训练总奖励迅速收敛到一个稳定的高值,证明了本发明中智能体可以学习如何智能地联合优化客户端选择和带宽分配策略。为了显示本发明的有益效果,还与其他现存的方法做了对比,包括(1)FedAvg:随机选择客户端,均匀分配总带宽;(2)FedCS:每轮在最大的时间期限内选择尽可能多的客户端,均匀分配总带宽;(3)ACSBA:采用DDQN算法自适应地选择客户端参与全局模型更新;(4)Favor:根据客户端上传的模型权重来描述客户端的数据分布,并基于DDQN算法来选择客户端,以加快FL训练的收敛速度,该算法均匀分配带宽。(5)CSBWA-ab:和实施例的唯一区别在于为每个选择的客户端平均分配带宽。对于每个学习任务,可以观察到训练总奖励在几百个训练回合后能收敛到稳定的高值。例如,MNIST大约需要500回合能达到最大奖励值,Fashion-MNIST大约需要450回合,CIFAR-10大约需要450回合。这表明,通过CSBWA,智能体可以智能地学习如何进行联合优化客户端选择和带宽分配策略。实验表明,MNIST训练的目标精度Γ设置为99%,Fashion-MNIST训练为85%,CIFAR-10训练为54%是合理的。
除此之外,附表1显示了在IID及不同的Non-IID设置下,三个数据集实现目标精度Γ所需的训练轮数,其中/表示任务收敛精度低于目标精度。可以看到,CSBWA在不同的任务中取得了最好的性能。对于MNIST数据集,CSBWA相比基线方法中的次优方法训练轮次分别减少了12%、14.1%、13.6%和20.3%。对于Fashion-MNIST,与次优方法相比,CSBWA分别降低了15.2%、12.5%、22.3%和2.9%。对于CIFAR-10数据集,CSBWA将训练轮数分别减少了27.2%、8.8%、6.0%和10.5%。其中,ACSBA、Favor和CSBWA基于DRL进行智能决策,实现目标精度所需的训练轮通常较少,这验证了基于DRL的算法的有效性。除此之外,CSBWA考虑了客户端的数据样本大小、数据质量、计算能力的异构性和最大带宽限制,因此训练可以在更少的能量消耗条件下实现更快的收敛。此外,本发明CSBWA在CIFAR-10数据集上的训练轮次小于CSBWA-ab,说明CSBWA更适合于解决大规模数据样本的学习任务。
附图5中(a)报告了在四种不同的数据分布设置下,MNIST数据集分类任务在测试过程中达到目标精度的总时间成本,(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总时间成本,(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总时间成本。附图6中(a)报告了在四种不同的数据分布设置下,MNIST数据集分类任务在测试过程中达到目标精度的总能耗成本,(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总能耗成本,(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总能耗成本。每次试验的实验结果是三次实验结果的平均值。附图5中可以看出,CSBWA和CSBWA-ab可以更快地收敛到目标精度。附图6表明,与其他四种方法相比,CSBWA和CSBWA-ab消耗的能量最小;由于本发明CSBWA考虑了不同客户端的计算能力和历史带宽信息,并将这两个特征合并到策略网络中,因此,在带宽有限的情况下,可以更快地实现模型收敛,并消耗更少的能耗。
表1三个任务训练达到目标精度所需的通信轮数
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (1)
1.一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,其特征在于,该方法包括如下步骤:
S1、联邦学习即FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型基于公式进行加权平均,得到更新的全局模型wj,其中Di表示客户端i的本地数据集大小,/>表示客户端i在第j-1轮的本地模型,K表示被选择的客户端数量;
S2、服务器将全局模型wj(j=0,1,…)下发给所有的客户端,客户端总数为N;
Di:客户端i的本地数据集大小,在FL模型训练之前可直接获得;
在第j轮训练中客户端i的数据分布质量;所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型;然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值;一个更偏态的数据分布反映为一个较大的损失值,采用损失值lossi来表示数据分布质量/>
在第j-1轮训练中分配给客户端i的上传带宽;未来的网络带宽与历史上的带宽信息有关;同时,带宽信息是影响系统成本的主要因素,因此考虑将前一个时间窗的带宽信息/>添加到状态集中;当j=1,在最大带宽B限制下,给每个客户端分配B/N的带宽;对于后续的轮次,Agent在第j-1轮作出了决策给所选的客户端i分配了带宽,则/>
S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,其中pi表示策略网络输出客户端i的概率值,即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b;
S5、每个客户端i,i∈K,用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型再通过/>上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj;
S6、Agent计算奖励值rj+1;
S7、重复步骤S1-S6,直到accj达到设定的目标精度Γ,一个回合即episode结束,策略网络更新其网络参数θ,具体包括:
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值;α,β分别表示权重因子,用于调整目标函数的偏好,α,β∈[0,1],且α+β=1;其中Tj,Ej计算如下:
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输的模型大小;Vi j表示客户端i上传模型的传输速率;/>表示客户端i在第j轮的本地训练时间成本,/>表示客户端i在第j轮的通信时间;/>表示客户端i在第j轮的本地训练能量消耗,/>表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加;对策略网络的参数进行损失计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310325579.8A CN116389270A (zh) | 2023-03-29 | 2023-03-29 | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310325579.8A CN116389270A (zh) | 2023-03-29 | 2023-03-29 | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116389270A true CN116389270A (zh) | 2023-07-04 |
Family
ID=86970540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310325579.8A Pending CN116389270A (zh) | 2023-03-29 | 2023-03-29 | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116389270A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076113A (zh) * | 2023-08-17 | 2023-11-17 | 重庆理工大学 | 一种基于联邦学习的工业异构设备多作业调度方法 |
CN117692939A (zh) * | 2024-02-02 | 2024-03-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
-
2023
- 2023-03-29 CN CN202310325579.8A patent/CN116389270A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076113A (zh) * | 2023-08-17 | 2023-11-17 | 重庆理工大学 | 一种基于联邦学习的工业异构设备多作业调度方法 |
CN117692939A (zh) * | 2024-02-02 | 2024-03-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
CN117692939B (zh) * | 2024-02-02 | 2024-04-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Fast-convergent federated learning with adaptive weighting | |
CN113504999B (zh) | 一种面向高性能分层联邦边缘学习的调度与资源分配方法 | |
CN113610303B (zh) | 一种负荷预测方法及系统 | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
Zhang et al. | Faithful edge federated learning: Scalability and privacy | |
CN113469325B (zh) | 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质 | |
Huang et al. | Meta-learning based dynamic computation task offloading for mobile edge computing networks | |
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN113191484A (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN112637883B (zh) | 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法 | |
CN112579194A (zh) | 基于时延和事务吞吐量的区块链共识任务卸载方法及装置 | |
US20220156633A1 (en) | System and method for adaptive compression in federated learning | |
Lin et al. | Contribution‐based Federated Learning client selection | |
Hua et al. | GAN-based deep distributional reinforcement learning for resource management in network slicing | |
CN116389270A (zh) | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
CN114169543A (zh) | 一种基于模型陈旧性与用户参与度感知的联邦学习算法 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
CN116700931A (zh) | 多目标边缘任务调度方法、装置、设备、介质及产品 | |
Yin et al. | Joint user scheduling and resource allocation for federated learning over wireless networks | |
Qu et al. | Stochastic cumulative DNN inference with RL-aided adaptive IoT device-edge collaboration | |
CN113543160A (zh) | 5g切片资源配置方法、装置、计算设备及计算机存储介质 | |
Aggarwal et al. | Enhancing quality of service in wireless systems using iterative weighted least squares with fuzzy logic integration algorithm | |
CN117369964A (zh) | 边缘计算系统的任务处理方法及相关装置 | |
CN117252253A (zh) | 异步联邦边缘学习中的客户端选择和个性化隐私保护方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |