CN116389270A - 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 - Google Patents

联邦学习中基于drl联合优化客户端选择和带宽分配的方法 Download PDF

Info

Publication number
CN116389270A
CN116389270A CN202310325579.8A CN202310325579A CN116389270A CN 116389270 A CN116389270 A CN 116389270A CN 202310325579 A CN202310325579 A CN 202310325579A CN 116389270 A CN116389270 A CN 116389270A
Authority
CN
China
Prior art keywords
client
round
representing
training
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310325579.8A
Other languages
English (en)
Inventor
毛炜
卢兴见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202310325579.8A priority Critical patent/CN116389270A/zh
Publication of CN116389270A publication Critical patent/CN116389270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,称作CSBWA,本发明制定了一个优化问题,旨在最小化系统总成本,定义为训练时间和能量消耗的加权和。通过联合优化客户端选择和带宽分配,可以利用更少的时间成本和能耗来确保FL的长期性能。该方法依赖基于DRL的REINFORCE算法,将观察到的客户端状态、历史带宽信息输入到策略网络中,并根据反馈奖励自动执行有效的客户端调度及带宽分配策略。将CSBWA应用到数据集MNIST、Fashion‑MNIST、CIFAR10上训练时,与另四种先进的方法相比,CSBWA在保证无线联邦学习模型性能的同时,有效地降低了时间成本和能耗。

Description

联邦学习中基于DRL联合优化客户端选择和带宽分配的方法
技术领域
本发明涉及计算机技术领域,涉及联邦学习模型训练算法与深度强化学习模型训练的交叉领域,是联邦学习中一种基于DRL联合优化客户端选择和带宽分配的方法。
背景技术
涉及两大块背景技术:联邦学习,深度强化学习。
1)联邦学习
当下,亿万级的边缘设备被连接到互联网,并且产生的海量数据可以被用来训练更强大且精确的模型。为了充分挖掘海量边缘数据的价值,联邦学习被视为一种最具潜力的解决方案,其最大的优势在于可以在保护客户端数据隐私安全的基础上联合多方的数据。但是在联邦学习经典部署场景——无线联邦学习网络(WFLNs)中,FL需要强大的计算能力、通信带宽以及存储空间,这无疑限制了联邦学习在资源受限的无线网络环境下的部署。
考虑到WFLNs中有限的通信资源,提高模型训练效率的一个直接方法是在FL训练过程中设计一个高效地客户选择策略。如有相关工作考虑到客户端选择的公平性,设计了一个保证公平的算法;但是,这些工作较少考虑到客户的数据样本的质量。有工作考虑根据客户端的数据样本偏差来选择客户端,但没有充分考虑到客户端的异构性。
在FL的迭代分布式训练过程中,服务器与客户端之间会经常传输高容量的模型权值或更新,因此设计一种高效的通信管理机制对提高FL训练效率具有重要意义。有工作描述了一种基于二分的迭代策略,以获得一个资源分配方案,优化最大的训练时间,同时消耗更少的能量,然而这些工作指定所有客户都参与每一轮的FL训练,没有考虑到带宽约束。
2)基于深度强化学习的调度优化
深度强化学习(DRL)是一种机器学习,是把深度学习中的神经网络引入强化学习后得到的模型,其中智能体(Agent)通过执行操作(Action)和查看回报值(Reward)来学习如何在环境中采取最佳的动作或策略并适应环境。马尔可夫决策过程(Markov DecisionProcesses,MDP)是对强化学习中智能体所处的环境的一个建模,强化学习中几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。一些工作表明DRL广泛应用于作业调度和资源分配等调度工作领域,以促进系统自动化管理。有部分工作可以在有限的预算范围内,通过考虑到影响FL学习性能的多个特征,基于DRL执行客户端选择或者计算资源的分配。然而,这些工作并没有考虑到联合优化客户端选择及带宽分配来进一步提高效率。
发明内容
本发明的目的是提供一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,旨在尽可能降低联邦学习的训练和通信开销的同时,保证FL的性能。
实现本发明目的的具体技术方案是:
一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,特点是该方法包括如下步骤:
S1、联邦学习(FL)进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型基于公式
Figure BDA0004153128450000021
进行加权平均,得到更新的全局模型wj,其中Di表示客户端i的本地数据集大小,/>
Figure BDA0004153128450000022
表示客户端i在第j-1轮的本地模型,K表示被选择的客户端数量;
S2、服务器将全局模型wj(j=0,1,…)下发给所有的客户端,客户端总数为N;
S3、智能体Agent获取所有客户端的状态信息
Figure BDA0004153128450000023
Agent基于REINFORCE算法作出决策,选择出K个客户端并给选择出的客户端分配对应的上传带宽;具体包括:获取所有客户端的状态信息/>
Figure BDA0004153128450000024
其中/>
Figure BDA0004153128450000025
Di:客户端i的本地数据集大小,在FL模型训练之前可直接获得;
Figure BDA0004153128450000026
在第j轮训练中客户端i的数据质量;所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型;然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值;一个更偏态的数据分布反映为一个较大的损失值,采用损失值lossi来表示数据分布质量/>
Figure BDA0004153128450000027
Figure BDA0004153128450000028
在第j轮训练中客户端i所持有的CPU频率;每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关,客户端所拥有的CPU频率/>
Figure BDA0004153128450000029
表示客户端的计算能力;
Figure BDA00041531284500000210
在第j-1轮训练中分配给客户端i的上传带宽;未来的网络带宽与历史上的带宽信息有关;同时,带宽信息是影响系统成本的主要因素,因此考虑将前一个时间窗的带宽信息/>
Figure BDA00041531284500000211
添加到状态集中;当j=1,在最大带宽(最大带宽表示为B)限制下,给每个客户端分配B/N的带宽;对于后续的轮次,Agent在第j-1轮作出了决策给所选的客户端i分配了带宽,则/>
Figure BDA00041531284500000212
S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,
Figure BDA00041531284500000213
其中pi表示策略网络输出客户端i的概率值,即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b;
S5、每个客户端i,i∈K,用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型
Figure BDA0004153128450000031
再通过/>
Figure BDA0004153128450000032
上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj
S6、Agent计算奖励值rj+1
S7、重复步骤S1-S6,直到accj达到设定的目标精度Γ,一个回合即episode结束,策略网络更新其网络参数θ,具体包括:
Figure BDA0004153128450000033
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
Figure BDA0004153128450000034
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值;α,β分别表示权重因子,用于调整目标函数的偏好,α,β∈[0,1],且α+β=1;其中Tj,Ej计算如下:
Figure BDA0004153128450000035
Figure BDA0004153128450000036
Figure BDA0004153128450000037
Figure BDA0004153128450000038
Figure BDA0004153128450000039
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,
Figure BDA00041531284500000310
表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输的模型大小;Vi j表示客户端i上传模型的传输速率;/>
Figure BDA00041531284500000311
表示客户端i在第j轮的本地训练时间成本,/>
Figure BDA00041531284500000312
表示客户端i在第j轮的通信时间;/>
Figure BDA00041531284500000313
表示客户端i在第j轮的本地训练能量消耗,/>
Figure BDA00041531284500000314
表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加;对策略网络的参数进行损失计算:
Figure BDA0004153128450000041
Figure BDA0004153128450000042
其中
Figure BDA0004153128450000043
B为最大通信带宽;其中R(τ)表示训练第τ个episode的总奖励值,/>
Figure BDA0004153128450000044
表示所有episodes总奖励值的平均期望;设置最大回合数max_episode为200。
步骤S3所述Agent基于REINFORCE算法作出决策,选择出K个客户端并给选择出的客户端分配对应的上传带宽;该步骤中输入策略网络的状态集综合考虑到了不同客户端的异构性,如计算异构性和数据异构性,并且进一步的基于算法给选择出的客户端分配相应的带宽,有利于更加充分且高效地利用带宽资源,因此该方法可以利用较少的时间成本和能耗来确保FL的长期性能。
本发明考虑采用基线的REINFORCE算法来更新策略网络是因为如果得到的奖励总是正的,那么当更新时,概率会增加,但增加的程度会有所不同。而在实际采样中,在一定时间只能采样少数动作,有些动作不能采样。一些被采样的动作会不断增加其概率,而未被采样的动作的概率会降低。这显然是不合理的。因此,使用基于基线的REINFORCE算法,通过从总奖励中减去基线,不会影响更新期望,而会影响更新方差,这可以帮助算法更快地收敛。在式(8)中,如果对一个动作序列进行采样得到的总回报G优于基线,则当梯度更新时,其概率会增加,即该动作序列得到增强。
本发明的有益效果包括:
1)考虑到WFLNs中有限的通信带宽和客户异构性,本发明将联合客户端选择和带宽分配问题进行形式化,使得使用较低的时间成本和能耗的同时保证FL的长期性能。
2)本发明设计了一个FL方法CSBWA,并实现了该方法以优化FL训练过程,通过将整个联合优化过程建模为一个MDP过程,本发明仅使用客户端信息和当前可用的无线信道信息,使用基于DRL的REINFORCE算法即可制定有效的联合优化策略。
附图说明
图1为本发明的流程图;
图2为本发明图示化流程示意图;
图3为策略网络更新流程图;
图4为DRL智能体训练过程示意图;
图5为本发明在三个任务训练达到目标精度所需的时间开销实验结果示例图;
图6为本发明在三个任务训练达到目标精度所需的能量开销实验结果示例图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明为一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法,该方法包括如下步骤:
S1、服务端初始化全局模型w0/服务器将移动端接收到的局部模型加权平均得到新的全局模型wj
S2、服务器将全局模型w0/wj下发给所有有效客户端;
S3、智能体Agent获取所有客户端的状态信息
Figure BDA0004153128450000051
Agent基于REINFORCE算法作出决策,选择出指定数量的客户端并给它们分配对应的上传带宽;
S4、被选择的客户端用本地数据集训练S2下载的全局模型,得到更新的局部模型
Figure BDA0004153128450000052
根据S3分配的带宽每个被选中的客户端上传局部模型;
S5、服务器聚合所有被选择客户端上传的局部模型,更新策略网络参数:
所述步骤S1具体包括:FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型加权平均
Figure BDA0004153128450000053
得到更新的全局模型;
S2、服务器将全局模型w0/wj下发给所有有效客户端;
S3、Agent根据Policy network作出决策,具体包括:
S3-1、获取所有客户端的状态信息
Figure BDA0004153128450000054
其中/>
Figure BDA0004153128450000055
具体包括:
Di:客户端i的数据样本量在FL模型训练之前可直接获得;
Figure BDA0004153128450000056
每个客户端的数据质量。不平衡的数据分布会显著降低模型的学习性能,因此选择具有高质量(尽可能均匀分布)数据样本的客户参与训练轮,有利于平衡不良数据集的影响。为了反映客户端数据分布的偏态,所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型。然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值。一个更偏态的数据分布反映为一个较大的损失值。因此,采用损失值lossi来表示数据分布质量。
Figure BDA0004153128450000057
客户端所持有的CPU频率,每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关。因此,客户端所拥有的CPU频率/>
Figure BDA0004153128450000061
可以用来表示为客户端的计算能力。
Figure BDA0004153128450000062
因为未来的网络带宽与历史上的带宽信息有关。同时,带宽信息是影响系统成本的主要因素,本发明将前一个时间窗的带宽信息/>
Figure BDA0004153128450000063
添加到状态集中。当j=1,在最大带宽限制下,随机将一定的带宽分配给每个客户端。对于后续的轮次,由于Agent做出决策给所选客户端分配了相应带宽,因此可以存储上一个时间戳的带宽信息。
S3-2、将状态集S输入到策略网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,
Figure BDA0004153128450000064
即得到被选择出的客户端集合K及给每个被选择的客户端分配相应的带宽b。
S4、每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型,再通过bi上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj,然后Agent计算奖励值rj+1
重复S1-S4直到全局模型达到目标精度Γ,然后更新策略网络参数θ。策略网络更新具体包括:
Figure BDA0004153128450000065
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
Figure BDA0004153128450000066
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值。其中Tj,Ej计算如下:
Figure BDA0004153128450000067
Figure BDA0004153128450000068
Figure BDA0004153128450000069
Figure BDA00041531284500000610
Figure BDA00041531284500000611
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,
Figure BDA00041531284500000612
表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输模型大小。Vi j表示客户端i上传模型的传输速率;/>
Figure BDA0004153128450000071
表示客户端i在第j轮的本地训练时间成本,/>
Figure BDA0004153128450000072
表示客户端i在第j轮的通信时间;/>
Figure BDA0004153128450000073
表示表示客户端i在第j轮的本地训练能量消耗,/>
Figure BDA0004153128450000074
表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加。对策略网络的参数进行损失计算:
Figure BDA0004153128450000075
Figure BDA0004153128450000076
其中
Figure BDA0004153128450000077
B为最大通信带宽。
本发明即CSBWA依靠基于DRL的强化算法来自动优化客户端选择和带宽分配策略。在决策过程中,考虑到了每个客户端的数据样本大小、数据质量、计算能力和可用的历史带宽信息,可以采用较低的时间成本和能耗,并保证FL的长期学习性能。
实施例
参阅附图1,为本发明的流程图。
考虑一个典型的联邦学习方法,设计总共有100个客户端,每个通信轮次中随机选取10个客户端参与训练,每个客户端每轮在本地数据集上使用SGD优化器迭代5次。如附图2所示,本实施例提供了一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法,包括:
S1、服务端初始化全局模型w0/服务器将移动端接收到的局部模型加权平均得到新的全局模型wj;具体包括:FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型加权平均
Figure BDA0004153128450000078
得到更新的全局模型;
S2、服务器将全局模型w0/wj下发给所有有效客户端;
S3、获取所有客户端的状态信息
Figure BDA0004153128450000079
Agent基于REINFORCE算法作出决策,选择出指定数量的客户端并给它们分配对应的上传带宽;具体包括:
S3-1、获取所有客户端的状态信息
Figure BDA00041531284500000710
其中/>
Figure BDA00041531284500000711
具体包括:
Di:客户端i的数据样本量在FL模型训练之前可直接获得;
Figure BDA00041531284500000712
每个客户端的数据质量。不平衡的数据分布会显著降低模型的学习性能,因此选择具有高质量(尽可能均匀分布)数据样本的客户参与训练轮,有利于平衡不良数据集的影响。为了反映客户端数据分布的偏态,所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型。然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值。一个更偏态的数据分布反映为一个较大的损失值。因此,采用损失值lossi来表示数据分布质量。
Figure BDA0004153128450000081
客户端所持有的CPU频率,每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关。因此,客户端所拥有的CPU频率/>
Figure BDA0004153128450000082
可以用来表示为客户端的计算能力。
Figure BDA0004153128450000083
因为未来的网络带宽与历史上的带宽信息有关。同时,带宽信息是影响系统成本的主要因素,本发明将前一个时间窗的带宽信息/>
Figure BDA0004153128450000084
添加到状态集中。当j=1,在最大带宽限制下,随机将一定的带宽分配给每个客户端。对于后续的轮次,由于Agent做出决策给所选客户端分配了相应带宽,因此可以存储上一个时间戳的带宽信息。
S3-2、将状态集S输入到策略网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,
Figure BDA0004153128450000085
即得到被选择出的客户端集合K及给每个被选择的客户端分配相应的带宽b。
S4、被选择的客户端用本地数据集训练S2下载的全局模型,得到更新的局部模型
Figure BDA0004153128450000086
根据S3分配的带宽每个被选中的客户端上传局部模型;服务器聚合所有被选择客户端上传的局部模型;具体为:每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型,再通过bi上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj,然后Agent计算奖励值rj+1
重复S1-S4直到全局模型达到目标精度Γ,然后更新策略网络参数θ,更新过程如附图3所示。策略网络更新具体包括:
Figure BDA0004153128450000087
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
Figure BDA0004153128450000088
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值。其中Tj,Ej计算如下:
Figure BDA0004153128450000089
Figure BDA00041531284500000810
Figure BDA0004153128450000091
Figure BDA0004153128450000092
Figure BDA0004153128450000093
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,
Figure BDA0004153128450000094
表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输模型大小。Vi j表示客户端i上传模型的传输速率;/>
Figure BDA0004153128450000095
表示客户端i在第j轮的本地训练时间成本,/>
Figure BDA0004153128450000096
表示客户端i在第j轮的通信时间;/>
Figure BDA0004153128450000097
表示表示客户端i在第j轮的本地训练能量消耗,/>
Figure BDA0004153128450000098
表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加。对策略网络的参数进行损失计算:
Figure BDA0004153128450000099
Figure BDA00041531284500000910
其中
Figure BDA00041531284500000911
B为最大通信带宽。
实验验证:
为了验证本发明的通用性,实验选取了两个不同的典型网络:CNN(两个5×5的卷积层),LeNet-5(由两个卷积层和三个全连接层构成)。本实施例使用CNN进行MNIST分类任务;使用LeNet-5进行Fashion-MNIST和CIFAR-10分类任务。实验中有效客户端N=100,选择客户端数量K=10。
设置客户端本地训练采用SGD优化器,其动量为0.9,权重衰减为5e-4,学习率从0.1开始,并分别在[0.3,0.6,0.8]×总轮次时以衰减10倍。在数据分布上,实验同时考虑了数据分布均匀(IID)和数据分布不均匀(Non-IID)两种情况,其中针对数据分布不均匀的设定为:1)当每个客户端按不同的百分比包含所有类样本时,对于每个客户端,σ=0.5表示50%的数据样本属于1个标签,其余50%的数据样本包含9个标签;σ=0.7表示70%的数据样本属于1个标签,其余30%的数据样本包含9个标签。3)H=2表明每个客户端包含两类数据样本。
附图4报告了本实施例(简写为CSBWA)在数据分布均匀和不均匀两种场景下,使用两种典型模型所进行的三种不同任务的总的奖励变化趋势,图a表示在MNIST数据集上训练收敛时Agent获得的总奖励,图b表示在Fashion-MNIST数据集上训练收敛时Agent获得的总奖励,图c表示在CIFAR-10数据集上训练收敛时Agent获得的总奖励。对于每个学习任务,可以观察到,在训练几百回合后,训练总奖励迅速收敛到一个稳定的高值,证明了本发明中智能体可以学习如何智能地联合优化客户端选择和带宽分配策略。为了显示本发明的有益效果,还与其他现存的方法做了对比,包括(1)FedAvg:随机选择客户端,均匀分配总带宽;(2)FedCS:每轮在最大的时间期限内选择尽可能多的客户端,均匀分配总带宽;(3)ACSBA:采用DDQN算法自适应地选择客户端参与全局模型更新;(4)Favor:根据客户端上传的模型权重来描述客户端的数据分布,并基于DDQN算法来选择客户端,以加快FL训练的收敛速度,该算法均匀分配带宽。(5)CSBWA-ab:和实施例的唯一区别在于为每个选择的客户端平均分配带宽。对于每个学习任务,可以观察到训练总奖励在几百个训练回合后能收敛到稳定的高值。例如,MNIST大约需要500回合能达到最大奖励值,Fashion-MNIST大约需要450回合,CIFAR-10大约需要450回合。这表明,通过CSBWA,智能体可以智能地学习如何进行联合优化客户端选择和带宽分配策略。实验表明,MNIST训练的目标精度Γ设置为99%,Fashion-MNIST训练为85%,CIFAR-10训练为54%是合理的。
除此之外,附表1显示了在IID及不同的Non-IID设置下,三个数据集实现目标精度Γ所需的训练轮数,其中/表示任务收敛精度低于目标精度。可以看到,CSBWA在不同的任务中取得了最好的性能。对于MNIST数据集,CSBWA相比基线方法中的次优方法训练轮次分别减少了12%、14.1%、13.6%和20.3%。对于Fashion-MNIST,与次优方法相比,CSBWA分别降低了15.2%、12.5%、22.3%和2.9%。对于CIFAR-10数据集,CSBWA将训练轮数分别减少了27.2%、8.8%、6.0%和10.5%。其中,ACSBA、Favor和CSBWA基于DRL进行智能决策,实现目标精度所需的训练轮通常较少,这验证了基于DRL的算法的有效性。除此之外,CSBWA考虑了客户端的数据样本大小、数据质量、计算能力的异构性和最大带宽限制,因此训练可以在更少的能量消耗条件下实现更快的收敛。此外,本发明CSBWA在CIFAR-10数据集上的训练轮次小于CSBWA-ab,说明CSBWA更适合于解决大规模数据样本的学习任务。
附图5中(a)报告了在四种不同的数据分布设置下,MNIST数据集分类任务在测试过程中达到目标精度的总时间成本,(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总时间成本,(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总时间成本。附图6中(a)报告了在四种不同的数据分布设置下,MNIST数据集分类任务在测试过程中达到目标精度的总能耗成本,(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总能耗成本,(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总能耗成本。每次试验的实验结果是三次实验结果的平均值。附图5中可以看出,CSBWA和CSBWA-ab可以更快地收敛到目标精度。附图6表明,与其他四种方法相比,CSBWA和CSBWA-ab消耗的能量最小;由于本发明CSBWA考虑了不同客户端的计算能力和历史带宽信息,并将这两个特征合并到策略网络中,因此,在带宽有限的情况下,可以更快地实现模型收敛,并消耗更少的能耗。
表1三个任务训练达到目标精度所需的通信轮数
Figure BDA0004153128450000111
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (1)

1.一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,其特征在于,该方法包括如下步骤:
S1、联邦学习即FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型基于公式
Figure FDA0004153128430000011
进行加权平均,得到更新的全局模型wj,其中Di表示客户端i的本地数据集大小,/>
Figure FDA0004153128430000012
表示客户端i在第j-1轮的本地模型,K表示被选择的客户端数量;
S2、服务器将全局模型wj(j=0,1,…)下发给所有的客户端,客户端总数为N;
S3、智能体Agent获取所有客户端的状态信息
Figure FDA0004153128430000013
Agent基于REINFORCE算法作出决策,选择出K个客户端并给选择出的客户端分配对应的上传带宽;具体包括:获取所有客户端的状态信息/>
Figure FDA00041531284300000116
其中/>
Figure FDA0004153128430000015
Di:客户端i的本地数据集大小,在FL模型训练之前可直接获得;
Figure FDA0004153128430000016
在第j轮训练中客户端i的数据分布质量;所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型;然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值;一个更偏态的数据分布反映为一个较大的损失值,采用损失值lossi来表示数据分布质量/>
Figure FDA0004153128430000017
Figure FDA0004153128430000018
在第j轮训练中客户端i所持有的CPU频率;每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关,客户端所拥有的CPU频率/>
Figure FDA0004153128430000019
表示客户端的计算能力;
Figure FDA00041531284300000110
在第j-1轮训练中分配给客户端i的上传带宽;未来的网络带宽与历史上的带宽信息有关;同时,带宽信息是影响系统成本的主要因素,因此考虑将前一个时间窗的带宽信息/>
Figure FDA00041531284300000111
添加到状态集中;当j=1,在最大带宽B限制下,给每个客户端分配B/N的带宽;对于后续的轮次,Agent在第j-1轮作出了决策给所选的客户端i分配了带宽,则/>
Figure FDA00041531284300000112
S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中,Agent基于REINFORCE算法作出决策aj=(i,bi),i∈K,其中bi=piB,,
Figure FDA00041531284300000113
其中pi表示策略网络输出客户端i的概率值,即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b;
S5、每个客户端i,i∈K,用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型
Figure FDA00041531284300000114
再通过/>
Figure FDA00041531284300000115
上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj
S6、Agent计算奖励值rj+1
S7、重复步骤S1-S6,直到accj达到设定的目标精度Γ,一个回合即episode结束,策略网络更新其网络参数θ,具体包括:
Figure FDA0004153128430000021
其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r:
Figure FDA0004153128430000022
其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值;α,β分别表示权重因子,用于调整目标函数的偏好,α,β∈[0,1],且α+β=1;其中Tj,Ej计算如下:
Figure FDA0004153128430000023
Figure FDA0004153128430000024
Figure FDA0004153128430000025
Figure FDA0004153128430000026
Figure FDA0004153128430000027
其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,
Figure FDA0004153128430000028
表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输的模型大小;Vi j表示客户端i上传模型的传输速率;/>
Figure FDA0004153128430000029
表示客户端i在第j轮的本地训练时间成本,/>
Figure FDA00041531284300000210
表示客户端i在第j轮的通信时间;/>
Figure FDA00041531284300000211
表示客户端i在第j轮的本地训练能量消耗,/>
Figure FDA00041531284300000212
表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加;对策略网络的参数进行损失计算:
Figure FDA00041531284300000213
Figure FDA0004153128430000031
Figure FDA0004153128430000032
其中
Figure FDA0004153128430000033
B为最大通信带宽;其中R(τ)表示训练第τ个episode的总奖励值,/>
Figure FDA0004153128430000034
表示所有episodes总奖励值的平均期望;设置最大回合数max_episode为200。
CN202310325579.8A 2023-03-29 2023-03-29 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 Pending CN116389270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310325579.8A CN116389270A (zh) 2023-03-29 2023-03-29 联邦学习中基于drl联合优化客户端选择和带宽分配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310325579.8A CN116389270A (zh) 2023-03-29 2023-03-29 联邦学习中基于drl联合优化客户端选择和带宽分配的方法

Publications (1)

Publication Number Publication Date
CN116389270A true CN116389270A (zh) 2023-07-04

Family

ID=86970540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310325579.8A Pending CN116389270A (zh) 2023-03-29 2023-03-29 联邦学习中基于drl联合优化客户端选择和带宽分配的方法

Country Status (1)

Country Link
CN (1) CN116389270A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076113A (zh) * 2023-08-17 2023-11-17 重庆理工大学 一种基于联邦学习的工业异构设备多作业调度方法
CN117692939A (zh) * 2024-02-02 2024-03-12 南京邮电大学 一种动态通信环境下的客户端调度方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076113A (zh) * 2023-08-17 2023-11-17 重庆理工大学 一种基于联邦学习的工业异构设备多作业调度方法
CN117692939A (zh) * 2024-02-02 2024-03-12 南京邮电大学 一种动态通信环境下的客户端调度方法
CN117692939B (zh) * 2024-02-02 2024-04-12 南京邮电大学 一种动态通信环境下的客户端调度方法

Similar Documents

Publication Publication Date Title
Wu et al. Fast-convergent federated learning with adaptive weighting
US20210073639A1 (en) Federated Learning with Adaptive Optimization
CN116389270A (zh) 联邦学习中基于drl联合优化客户端选择和带宽分配的方法
Koo et al. Deep reinforcement learning for network slicing with heterogeneous resource requirements and time varying traffic dynamics
CN113504999B (zh) 一种面向高性能分层联邦边缘学习的调度与资源分配方法
CN113610303B (zh) 一种负荷预测方法及系统
CN113191484A (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN113469325B (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
Huang et al. Meta-learning based dynamic computation task offloading for mobile edge computing networks
CN112637883B (zh) 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN112579194A (zh) 基于时延和事务吞吐量的区块链共识任务卸载方法及装置
Kim Network traffic prediction based on INGARCH model
US20220156633A1 (en) System and method for adaptive compression in federated learning
Lin et al. Contribution‐based Federated Learning client selection
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
Yin et al. Joint user scheduling and resource allocation for federated learning over wireless networks
CN116700931A (zh) 多目标边缘任务调度方法、装置、设备、介质及产品
CN117252253A (zh) 异步联邦边缘学习中的客户端选择和个性化隐私保护方法
CN116542319A (zh) 边缘计算环境中基于数字孪生的自适应联邦学习方法及系统
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN113543160A (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
Mays et al. Decentralized data allocation via local benchmarking for parallelized mobile edge learning
Zhang et al. Optimizing federated edge learning on non-IID data via neural architecture search
CN114138416A (zh) 面向负载-时间窗口的基于dqn云软件资源自适应分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination