CN116389270A

CN116389270A - 联邦学习中基于drl联合优化客户端选择和带宽分配的方法

Info

Publication number: CN116389270A
Application number: CN202310325579.8A
Authority: CN
Inventors: 毛炜; 卢兴见
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-04

Abstract

本发明公开了一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法，称作CSBWA，本发明制定了一个优化问题，旨在最小化系统总成本，定义为训练时间和能量消耗的加权和。通过联合优化客户端选择和带宽分配，可以利用更少的时间成本和能耗来确保FL的长期性能。该方法依赖基于DRL的REINFORCE算法，将观察到的客户端状态、历史带宽信息输入到策略网络中，并根据反馈奖励自动执行有效的客户端调度及带宽分配策略。将CSBWA应用到数据集MNIST、Fashion‑MNIST、CIFAR10上训练时，与另四种先进的方法相比，CSBWA在保证无线联邦学习模型性能的同时，有效地降低了时间成本和能耗。

Description

联邦学习中基于DRL联合优化客户端选择和带宽分配的方法

技术领域

本发明涉及计算机技术领域，涉及联邦学习模型训练算法与深度强化学习模型训练的交叉领域，是联邦学习中一种基于DRL联合优化客户端选择和带宽分配的方法。

背景技术

涉及两大块背景技术：联邦学习，深度强化学习。

1)联邦学习

当下，亿万级的边缘设备被连接到互联网，并且产生的海量数据可以被用来训练更强大且精确的模型。为了充分挖掘海量边缘数据的价值，联邦学习被视为一种最具潜力的解决方案，其最大的优势在于可以在保护客户端数据隐私安全的基础上联合多方的数据。但是在联邦学习经典部署场景——无线联邦学习网络(WFLNs)中，FL需要强大的计算能力、通信带宽以及存储空间，这无疑限制了联邦学习在资源受限的无线网络环境下的部署。

考虑到WFLNs中有限的通信资源，提高模型训练效率的一个直接方法是在FL训练过程中设计一个高效地客户选择策略。如有相关工作考虑到客户端选择的公平性，设计了一个保证公平的算法；但是，这些工作较少考虑到客户的数据样本的质量。有工作考虑根据客户端的数据样本偏差来选择客户端，但没有充分考虑到客户端的异构性。

在FL的迭代分布式训练过程中，服务器与客户端之间会经常传输高容量的模型权值或更新，因此设计一种高效的通信管理机制对提高FL训练效率具有重要意义。有工作描述了一种基于二分的迭代策略，以获得一个资源分配方案，优化最大的训练时间，同时消耗更少的能量，然而这些工作指定所有客户都参与每一轮的FL训练，没有考虑到带宽约束。

2)基于深度强化学习的调度优化

深度强化学习(DRL)是一种机器学习，是把深度学习中的神经网络引入强化学习后得到的模型，其中智能体(Agent)通过执行操作(Action)和查看回报值(Reward)来学习如何在环境中采取最佳的动作或策略并适应环境。马尔可夫决策过程(Markov DecisionProcesses，MDP)是对强化学习中智能体所处的环境的一个建模，强化学习中几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。一些工作表明DRL广泛应用于作业调度和资源分配等调度工作领域，以促进系统自动化管理。有部分工作可以在有限的预算范围内，通过考虑到影响FL学习性能的多个特征，基于DRL执行客户端选择或者计算资源的分配。然而，这些工作并没有考虑到联合优化客户端选择及带宽分配来进一步提高效率。

发明内容

本发明的目的是提供一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法，旨在尽可能降低联邦学习的训练和通信开销的同时，保证FL的性能。

实现本发明目的的具体技术方案是：

一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法，特点是该方法包括如下步骤：

S1、联邦学习(FL)进行的第一轮，服务器初始化一个全局模型w⁰；在接下来的轮次中，服务器对客户端上传的本地模型基于公式

进行加权平均，得到更新的全局模型w^j，其中D_i表示客户端i的本地数据集大小，/>

表示客户端i在第j-1轮的本地模型，K表示被选择的客户端数量；

S2、服务器将全局模型w^j(j＝0，1，…)下发给所有的客户端，客户端总数为N；

S3、智能体Agent获取所有客户端的状态信息

Agent基于REINFORCE算法作出决策，选择出K个客户端并给选择出的客户端分配对应的上传带宽；具体包括：获取所有客户端的状态信息/>

其中/>

D_i：客户端i的本地数据集大小，在FL模型训练之前可直接获得；

在第j轮训练中客户端i的数据质量；所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型；然后，每个本地模型利用服务器上的一小部分测试数据进行训练，得到相应的损失值；一个更偏态的数据分布反映为一个较大的损失值，采用损失值loss_i来表示数据分布质量/>

在第j轮训练中客户端i所持有的CPU频率；每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关，客户端所拥有的CPU频率/>

表示客户端的计算能力；

在第j-1轮训练中分配给客户端i的上传带宽；未来的网络带宽与历史上的带宽信息有关；同时，带宽信息是影响系统成本的主要因素，因此考虑将前一个时间窗的带宽信息/>

添加到状态集中；当j＝1，在最大带宽(最大带宽表示为B)限制下，给每个客户端分配B/N的带宽；对于后续的轮次，Agent在第j-1轮作出了决策给所选的客户端i分配了带宽，则/>

S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中，Agent基于REINFORCE算法作出决策a_j＝(i，b_i)，i∈K，其中b_i＝p_iB，，

其中p_i表示策略网络输出客户端i的概率值，即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b；

S5、每个客户端i，i∈K，用自己的本地数据集训练从服务器下载的全局模型，得到更新的本地模型

再通过/>

上传其本地模型到服务器，服务器在接收到所有被选择出客户端的本地模型后，服务器通过加权聚合获得新的全局模型w^j及模型精度acc_j；

S6、Agent计算奖励值r_j+1；

S7、重复步骤S1-S6，直到acc_j达到设定的目标精度Γ，一个回合即episode结束，策略网络更新其网络参数θ，具体包括：

其中γ为折扣因子，γ∈[0，1]，J为最大训练轮次，强化学习每轮的奖励值表示为r：

其中T_j表示第j轮总的训练时间，E_j表示第j轮总的能量消耗，Γ表示给指定任务设定的目标精度值；α，β分别表示权重因子，用于调整目标函数的偏好，α，β∈[0，1]，且α+β＝1；其中T_j，E_j计算如下：

其中，λ_i表示客户端i的计算芯片组的有效电容系数，c_i表示客户端训练每个数据样本需要的CPU周期，

表示客户端i在第j轮的传输功率，M_i是客户端的信道状态，N₀表示复高斯信道噪声方差，κ表示每个本地模型本地迭代训练次数，Mo_i表示传输的模型大小；V_i ^j表示客户端i上传模型的传输速率；/>

表示客户端i在第j轮的本地训练时间成本，/>

表示客户端i在第j轮的通信时间；/>

表示客户端i在第j轮的本地训练能量消耗，/>

表示客户端i在第j轮的通信能耗；在同步FL中，每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端，总的能量开销为所有被选择客户端的能量开销的累加；对策略网络的参数进行损失计算：

其中

B为最大通信带宽；其中R(τ)表示训练第τ个episode的总奖励值，/>

表示所有episodes总奖励值的平均期望；设置最大回合数max_episode为200。

步骤S3所述Agent基于REINFORCE算法作出决策，选择出K个客户端并给选择出的客户端分配对应的上传带宽；该步骤中输入策略网络的状态集综合考虑到了不同客户端的异构性，如计算异构性和数据异构性，并且进一步的基于算法给选择出的客户端分配相应的带宽，有利于更加充分且高效地利用带宽资源，因此该方法可以利用较少的时间成本和能耗来确保FL的长期性能。

本发明考虑采用基线的REINFORCE算法来更新策略网络是因为如果得到的奖励总是正的，那么当更新时，概率会增加，但增加的程度会有所不同。而在实际采样中，在一定时间只能采样少数动作，有些动作不能采样。一些被采样的动作会不断增加其概率，而未被采样的动作的概率会降低。这显然是不合理的。因此，使用基于基线的REINFORCE算法，通过从总奖励中减去基线，不会影响更新期望，而会影响更新方差，这可以帮助算法更快地收敛。在式(8)中，如果对一个动作序列进行采样得到的总回报G优于基线，则当梯度更新时，其概率会增加，即该动作序列得到增强。

本发明的有益效果包括：

1)考虑到WFLNs中有限的通信带宽和客户异构性，本发明将联合客户端选择和带宽分配问题进行形式化，使得使用较低的时间成本和能耗的同时保证FL的长期性能。

2)本发明设计了一个FL方法CSBWA，并实现了该方法以优化FL训练过程，通过将整个联合优化过程建模为一个MDP过程，本发明仅使用客户端信息和当前可用的无线信道信息，使用基于DRL的REINFORCE算法即可制定有效的联合优化策略。

附图说明

图1为本发明的流程图；

图2为本发明图示化流程示意图；

图3为策略网络更新流程图；

图4为DRL智能体训练过程示意图；

图5为本发明在三个任务训练达到目标精度所需的时间开销实验结果示例图；

图6为本发明在三个任务训练达到目标精度所需的能量开销实验结果示例图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明为一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法，该方法包括如下步骤：

S1、服务端初始化全局模型w⁰/服务器将移动端接收到的局部模型加权平均得到新的全局模型w^j；

S2、服务器将全局模型w⁰/w^j下发给所有有效客户端；

S3、智能体Agent获取所有客户端的状态信息

Agent基于REINFORCE算法作出决策，选择出指定数量的客户端并给它们分配对应的上传带宽；

S4、被选择的客户端用本地数据集训练S2下载的全局模型，得到更新的局部模型

根据S3分配的带宽每个被选中的客户端上传局部模型；

S5、服务器聚合所有被选择客户端上传的局部模型，更新策略网络参数：

所述步骤S1具体包括：FL进行的第一轮，服务器初始化一个全局模型w⁰；在接下来的轮次中，服务器对客户端上传的本地模型加权平均

得到更新的全局模型；

S2、服务器将全局模型w⁰/w^j下发给所有有效客户端；

S3、Agent根据Policy network作出决策，具体包括：

S3-1、获取所有客户端的状态信息

其中/>

具体包括：

D_i：客户端i的数据样本量在FL模型训练之前可直接获得；

每个客户端的数据质量。不平衡的数据分布会显著降低模型的学习性能，因此选择具有高质量(尽可能均匀分布)数据样本的客户参与训练轮，有利于平衡不良数据集的影响。为了反映客户端数据分布的偏态，所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型。然后，每个本地模型利用服务器上的一小部分测试数据进行训练，得到相应的损失值。一个更偏态的数据分布反映为一个较大的损失值。因此，采用损失值loss_i来表示数据分布质量。

客户端所持有的CPU频率，每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关。因此，客户端所拥有的CPU频率/>

可以用来表示为客户端的计算能力。

因为未来的网络带宽与历史上的带宽信息有关。同时，带宽信息是影响系统成本的主要因素，本发明将前一个时间窗的带宽信息/>

添加到状态集中。当j＝1，在最大带宽限制下，随机将一定的带宽分配给每个客户端。对于后续的轮次，由于Agent做出决策给所选客户端分配了相应带宽，因此可以存储上一个时间戳的带宽信息。

S3-2、将状态集S输入到策略网络中，Agent基于REINFORCE算法作出决策a_j＝(i，b_i)，i∈K，其中b_i＝p_iB，，

即得到被选择出的客户端集合K及给每个被选择的客户端分配相应的带宽b。

S4、每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型，得到更新的本地模型，再通过b_i上传其本地模型到服务器，服务器在接收到所有被选择出客户端的本地模型后，服务器通过加权聚合获得新的全局模型w^j及模型精度acc_j，然后Agent计算奖励值r_j+1。

重复S1-S4直到全局模型达到目标精度Γ，然后更新策略网络参数θ。策略网络更新具体包括：

其中T_j表示第j轮总的训练时间，E_j表示第j轮总的能量消耗，Γ表示给指定任务设定的目标精度值。其中T_j，E_j计算如下：

表示客户端i在第j轮的传输功率，M_i是客户端的信道状态，N₀表示复高斯信道噪声方差，κ表示每个本地模型本地迭代训练次数，Mo_i表示传输模型大小。V_i ^j表示客户端i上传模型的传输速率；/>

表示客户端i在第j轮的本地训练时间成本，/>

表示客户端i在第j轮的通信时间；/>

表示表示客户端i在第j轮的本地训练能量消耗，/>

表示客户端i在第j轮的通信能耗；在同步FL中，每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端，总的能量开销为所有被选择客户端的能量开销的累加。对策略网络的参数进行损失计算：

其中

B为最大通信带宽。

本发明即CSBWA依靠基于DRL的强化算法来自动优化客户端选择和带宽分配策略。在决策过程中，考虑到了每个客户端的数据样本大小、数据质量、计算能力和可用的历史带宽信息，可以采用较低的时间成本和能耗，并保证FL的长期学习性能。

实施例

参阅附图1，为本发明的流程图。

考虑一个典型的联邦学习方法，设计总共有100个客户端，每个通信轮次中随机选取10个客户端参与训练，每个客户端每轮在本地数据集上使用SGD优化器迭代5次。如附图2所示，本实施例提供了一种联邦学习中基于DRL的客户端选择和带宽分配联合优化方法，包括：

S1、服务端初始化全局模型w⁰/服务器将移动端接收到的局部模型加权平均得到新的全局模型w^j；具体包括：FL进行的第一轮，服务器初始化一个全局模型w⁰；在接下来的轮次中，服务器对客户端上传的本地模型加权平均

得到更新的全局模型；

S2、服务器将全局模型w⁰/w^j下发给所有有效客户端；

S3、获取所有客户端的状态信息

Agent基于REINFORCE算法作出决策，选择出指定数量的客户端并给它们分配对应的上传带宽；具体包括：

S3-1、获取所有客户端的状态信息

其中/>

具体包括：

D_i：客户端i的数据样本量在FL模型训练之前可直接获得；

可以用来表示为客户端的计算能力。

根据S3分配的带宽每个被选中的客户端上传局部模型；服务器聚合所有被选择客户端上传的局部模型；具体为：每个客户端i(i∈K)用自己的本地数据集训练从服务器下载的全局模型，得到更新的本地模型，再通过b_i上传其本地模型到服务器，服务器在接收到所有被选择出客户端的本地模型后，服务器通过加权聚合获得新的全局模型w^j及模型精度acc_j，然后Agent计算奖励值r_j+1。

重复S1-S4直到全局模型达到目标精度Γ，然后更新策略网络参数θ，更新过程如附图3所示。策略网络更新具体包括：

表示客户端i在第j轮的本地训练时间成本，/>

表示客户端i在第j轮的通信时间；/>

表示表示客户端i在第j轮的本地训练能量消耗，/>

其中

B为最大通信带宽。

实验验证：

为了验证本发明的通用性，实验选取了两个不同的典型网络：CNN(两个5×5的卷积层)，LeNet-5(由两个卷积层和三个全连接层构成)。本实施例使用CNN进行MNIST分类任务；使用LeNet-5进行Fashion-MNIST和CIFAR-10分类任务。实验中有效客户端N＝100，选择客户端数量K＝10。

设置客户端本地训练采用SGD优化器，其动量为0.9，权重衰减为5e-4，学习率从0.1开始，并分别在[0.3，0.6，0.8]×总轮次时以衰减10倍。在数据分布上，实验同时考虑了数据分布均匀(IID)和数据分布不均匀(Non-IID)两种情况，其中针对数据分布不均匀的设定为：1)当每个客户端按不同的百分比包含所有类样本时，对于每个客户端，σ＝0.5表示50％的数据样本属于1个标签，其余50％的数据样本包含9个标签；σ＝0.7表示70％的数据样本属于1个标签，其余30％的数据样本包含9个标签。3)H＝2表明每个客户端包含两类数据样本。

附图4报告了本实施例(简写为CSBWA)在数据分布均匀和不均匀两种场景下，使用两种典型模型所进行的三种不同任务的总的奖励变化趋势，图a表示在MNIST数据集上训练收敛时Agent获得的总奖励，图b表示在Fashion-MNIST数据集上训练收敛时Agent获得的总奖励，图c表示在CIFAR-10数据集上训练收敛时Agent获得的总奖励。对于每个学习任务，可以观察到，在训练几百回合后，训练总奖励迅速收敛到一个稳定的高值，证明了本发明中智能体可以学习如何智能地联合优化客户端选择和带宽分配策略。为了显示本发明的有益效果，还与其他现存的方法做了对比，包括(1)FedAvg：随机选择客户端，均匀分配总带宽；(2)FedCS：每轮在最大的时间期限内选择尽可能多的客户端，均匀分配总带宽；(3)ACSBA：采用DDQN算法自适应地选择客户端参与全局模型更新；(4)Favor：根据客户端上传的模型权重来描述客户端的数据分布，并基于DDQN算法来选择客户端，以加快FL训练的收敛速度，该算法均匀分配带宽。(5)CSBWA-ab：和实施例的唯一区别在于为每个选择的客户端平均分配带宽。对于每个学习任务，可以观察到训练总奖励在几百个训练回合后能收敛到稳定的高值。例如，MNIST大约需要500回合能达到最大奖励值，Fashion-MNIST大约需要450回合，CIFAR-10大约需要450回合。这表明，通过CSBWA，智能体可以智能地学习如何进行联合优化客户端选择和带宽分配策略。实验表明，MNIST训练的目标精度Γ设置为99％，Fashion-MNIST训练为85％，CIFAR-10训练为54％是合理的。

除此之外，附表1显示了在IID及不同的Non-IID设置下，三个数据集实现目标精度Γ所需的训练轮数，其中/表示任务收敛精度低于目标精度。可以看到，CSBWA在不同的任务中取得了最好的性能。对于MNIST数据集，CSBWA相比基线方法中的次优方法训练轮次分别减少了12％、14.1％、13.6％和20.3％。对于Fashion-MNIST，与次优方法相比，CSBWA分别降低了15.2％、12.5％、22.3％和2.9％。对于CIFAR-10数据集，CSBWA将训练轮数分别减少了27.2％、8.8％、6.0％和10.5％。其中，ACSBA、Favor和CSBWA基于DRL进行智能决策，实现目标精度所需的训练轮通常较少，这验证了基于DRL的算法的有效性。除此之外，CSBWA考虑了客户端的数据样本大小、数据质量、计算能力的异构性和最大带宽限制，因此训练可以在更少的能量消耗条件下实现更快的收敛。此外，本发明CSBWA在CIFAR-10数据集上的训练轮次小于CSBWA-ab，说明CSBWA更适合于解决大规模数据样本的学习任务。

附图5中(a)报告了在四种不同的数据分布设置下，MNIST数据集分类任务在测试过程中达到目标精度的总时间成本，(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总时间成本，(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总时间成本。附图6中(a)报告了在四种不同的数据分布设置下，MNIST数据集分类任务在测试过程中达到目标精度的总能耗成本，(b)为Fashion-MNIST数据集分类任务在在测试过程中达到目标精度的总能耗成本，(c)为CIFAR-10数据集分类任务在在测试过程中达到目标精度的总能耗成本。每次试验的实验结果是三次实验结果的平均值。附图5中可以看出，CSBWA和CSBWA-ab可以更快地收敛到目标精度。附图6表明，与其他四种方法相比，CSBWA和CSBWA-ab消耗的能量最小；由于本发明CSBWA考虑了不同客户端的计算能力和历史带宽信息，并将这两个特征合并到策略网络中，因此，在带宽有限的情况下，可以更快地实现模型收敛，并消耗更少的能耗。

表1三个任务训练达到目标精度所需的通信轮数

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。