CN116866974A

CN116866974A - 一种基于深度强化学习的联邦学习客户选择方法

Info

Publication number: CN116866974A
Application number: CN202310905899.0A
Authority: CN
Inventors: 梁乐; 彭新雅; 金石
Original assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Current assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-10

Abstract

本发明公开了一种基于深度强化学习的联邦学习客户选择方法：将客户选择问题建模为马尔科夫决策过程，将客户的数据样本数量、数据分布、训练学习效果以及信道情况作为观测的状态空间，设计奖励使得达到设定的学习效果的训练轮数更少，通过双重延时深度确定性策略梯度算法(TD3)动态选择客户设备参与聚合。本发明考虑客户的数据质量以及通信质量的差异性，相比于随机选择以及通信贪婪选择方法更加鲁棒，能够加速模型收敛且达到更好的模型性能。

Description

一种基于深度强化学习的联邦学习客户选择方法

技术领域

本发明属于无线通信与机器学习结合领域，涉及深度学习以及强化学习技术，为一种联邦学习中使深度强化学习TD3算法进行客户选择的方法。

背景技术

传统的机器学习收集数据至中心处理器进行训练及分析，然而，由于数据量过大，集中式的训练会产生巨大的数据传输成本；并且随着人们对信息安全的关注度不断提高，个人用户对于数据隐私保护的需求愈加强烈，集中处理可能会出现隐私泄露问题。同时，由于企业之间的相互竞争，数据往往以孤岛形式存在，无法直接利用。联邦学习是一种具有隐私保护的机器学习范式，它使各个客户在本地进行训练，只上传本地更新而不泄漏本地数据，最终实现合作训练全局模型。典型的联邦学习训练过程为：服务器广播当前的全局模型，每个客户利用本地数据进行训练，然后将更新的模型回传给服务器，服务器聚合收到的客户模型并更新全局模型，再将新的模型下发，直到模型的性能指标收敛。由于避免了把用户数据直接上传数据中心，联邦学习能良好地保护数据隐私安全；同时分布式的机器学习模式，使得它能够利用大量的移动终端设备的计算资源训练机器学习模型。

然而，联邦学习需要客户端与服务器之间不断进行通信，参与横向联邦学习的设备数量通常是很大的，甚至能够达到百万级的数量，这使通信成为联邦学习发展的一个重大瓶颈。并且设备之间有较大的异构性，会影响最终的模型质量。首先参与联邦学习的各个设备之间数据量的大小一般是不同的，并且数据分布通常是非独立同分布，会导致客户端本地训练呈现出不同的学习效果，将某些训练效果较差的本地模型聚合可能会造成全局模型的质量下降；其次，设备在计算能力、通信资源、剩余能量等方面也存在差异，在同步联邦学习中，所有客户端完成训练任务才能进行下一步，每轮训练时间由最慢的客户端决定，计算能力弱、信道状态差、剩余能量少的设备可能难以在能预置的时延范围内发送更新给服务器，导致训练收敛时间延长。因此如何合理决策哪些设备参与模型聚合，对于高质量的联邦学习至关重要。

因而，如何合理决策哪些设备参与模型聚合，对于高质量的联邦学习至关重要。

发明内容

技术问题：本发明针对现有技术的不足，提供一种基于深度强化学习的联邦学习客户选择方法，利用强化学习的自学习能力，帮助服务器做出客户选择决策，以提高每轮全局模型的准确性，并减少所需的通信轮数。

技术方案：本发明采用的一种基于深度强化学习的联邦学习客户选择方法包括以下步骤：

用于联邦学习的客户选择过程，考虑客户数据质量以及上行信道状况差异，将客户选择问题建模为马尔科夫决策过程，并设计其中的状态空间、动作空间以及奖励函数，训练智能体动态选择客户设备参与聚合，以提高每轮全局模型的准确性，并减少达到目标准确率所需的通信轮数。

该选择方法按以下步骤进行：

步骤1，中央服务器将当前第t轮的深度学习全局模型w_t广播发送给参与当前训练的所有客户设备K＝{1,2,...,K}；

步骤2，客户k接收到全局模型参数后，利用本地数据在设备上进行学习训练，更新本地模型，并记录下两个训练过程中的损失值及/> 指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失，/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值；

步骤3，客户k将本地第t轮设备信息打包发送给中央服务器端作为智能体的状态观测值中的一个元素；/>指客户k第t轮数据样本数量；/>指客户k第t轮信道的大尺度衰落功率增益因子，包括路径损耗和阴影衰落，/>指客户k第t轮信道的小尺度衰落功率增益因子，二者反映了客户端到服务器之间的信道状态；

步骤4，中央服务器根据接收到的客户k第t轮的信息通过TD3算法辅助选择N个客户设备；

步骤5，客户k通过上行信道上传第t+1轮本地模型到服务器端，对于客户k，其信干噪比表示为

式中σ²为噪声功率，Φ_I指被选中上传的N个设备中除设备k之外的其他客户，P为设备传输功率，客户k第t轮上行数据速率表示为：

B为系统的总带宽，设需传输的数据量大小为W，限定一轮的传输时间为T_cm，则客户端成功传输模型更新到服务器端的条件为若不满足传输成功条件，则丢弃该客户此次更新；

步骤6，中央服务器采用FedAvg中按样本数平均聚合的方式，更新全局网络参数模型。

所述状态空间是指客户k第t轮数据样本数量，/>指客户k第t轮接收到全局模型后训练遍历一次本地数据集的损失，/>指客户k第t轮完成本地训练后学习获得的本地网络模型在统一训练集上的损失值，/>指客户k第t轮信道的大尺度衰落功率增益因子，包括路径损耗和阴影衰落，/>指客户k第t轮信道的小尺度衰落功率增益因子。

所述动作空间是对应第t轮客户k的一个权重大小，ρ按从大到小排列，选择对应的前N个设备。

所述奖励函数是其中z为大于1的常数，/>为t轮训练后的全局模型的识别准确率，Ω为目标准确率，/>当未达到目标准确率时r_t＜0，达到目标准确率时，联邦学习训练停止，r_t＝0。

所述训练智能体动态选择客户设备参与聚合，具体为服务器端接收到客户信息作为智能体的观测空间，并将其输入TD3的决策网络中，输出动作按照ρ由大到小选择对应的N个客户参与本次聚合。

有益效果：本发明的主要创新点是考虑了实际通信环境中上行信道不完美，传输存在失败的情况针对客户的数据质量以及通信质量的差异性，提出了一种基于双重延时深度确定性策略梯度算法(TD3)的客户选择算法，通过强化学习方法动态选择客户设备参与聚合，加速全局模型的收敛。利用强化学习的自学习能力，帮助服务器做出客户选择决策，以提高每轮全局模型的准确性，并减少所需的通信轮数。

附图说明

图1是本联邦学习客户选择方法中应用的联邦学习工作流程图。

图2是本联邦学习客户选择方法中基于强化学习方法的联邦学习客户选择架构图。

图3是在本地数据之前不同分布情况下联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。

图4是在考虑本地数据间非独立同分布的同时考虑上行信道不完美存在通信传输失败的情况下，联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。

图5是在考虑本地数据间非独立同分布的同时考虑上行信道不完美存在通信传输失败的情况下，使用不同客户选择方法获得的联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明：

如图1所示：本发明的具体实施步骤如下：

1)中央服务器将当前第t轮的深度学习全局模型w_t广播发送给参与当前训练的所有客户设备K＝{1,2,...,K}。

2)客户k接收到全局模型参数后，利用本地数据在设备上进行学习训练，更新本地模型。客户端本地执行梯度下降算法，本地的网络模型权重更新表示为：

式中η为学习率，为本地损失函数的梯度，ξ_k是客户k本地数据集D_k中一小批数据，F_k(w,ξ_k)是关于数据ξ_k的本地损失函数。

并记录下两个训练过程中的损失值及/> 指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失，/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值。

3)客户将本地设备信息打包发送给服务器端作为智能体的状态观测值中的一个元素。

指客户k第t轮数据样本数量；/>指客户k第t轮信道的大尺度衰落功率增益因子，包括路径损耗和阴影衰落，/>指客户k第t轮信道的小尺度衰落功率增益因子，二者反映了客户端到服务器之间的信道状态。

4)中央服务器根据接收到的客户信息通过TD3算法输出K维连续动作值/>最终的客户选择决策按ρ值的大小从高到低顺序选择前N个客户设备。

5)客户通过上行信道上传本地模型到服务器端。对于客户k，信干噪比/>表示为：

式中σ²为噪声功率，P为设备传输功率，Φ_I指被选中上传的N个设备中除设备k之外的其他客户，设系统的总带宽为B，所有客户共用一个频段，其上行数据速率可以表示为：

设需传输的数据量大小为W，限定一轮的传输时间为T_cm，则客户端成功传输模型更新到服务器端的条件为若不满足传输成功条件，则丢弃该客户此次更新。

6)中央服务器采用FedAvg中按样本数平均聚合的方式，更新全局网络参数模型：

其中，N为客户总数，客户k有d_k个本地数据样本，d为全部客户端拥有的数据样本量

强化学习训练及使用场景如如图2所示：

客户信息作为智能体的观测空间，智能体根据输入的状态输出动作/>并选择N个客户参与本次聚合，根据聚合后得到的全局模型性能，反馈给智能体一个奖励值，具体来说，使用的奖励函数R为：/>其中z为大于1的常数，/>为t轮训练后的全局模型的识别准确率，Ω为目标准确率，/>当未达到目标准确率时r_t＜0，达到目标准确率时，联邦学习训练停止，r_t＝0。

以下所有仿真结果都是基于经典的FashionMNIST数据集的图像识别的联邦学习训练任务。通信环境考虑拥有一个基站，K＝20个用户的蜂窝无线网络，每轮选择N＝5个设备参与训练，考虑3GPP TR36.873中的3D-Umi(Urban Micro cell)场景，小区半径200米，基站天线高度为10米，载波中心频率2GHz，用户移动速度3km/h，上行传输功率大小为20dBm,上行链路带宽大小10MHz，噪声功率谱密度-174dBm/Hz。

图3是在本地数据之前不同分布情况下的识别准确率曲线。对比FedAvg和FedProx方法上在独立同分布以及非独立同分布上的识别效果可以看出，客户数据非独立同分布会减缓联邦学习的学习收敛速度，并且导致识别性能波动较大，FedProx算法相比于FedAvg算法对非独立同分布情况更加鲁棒。

图4是在考虑本地数据间非独立同分布以及上行信道不完美存在通信传输失败的情况下的识别准确率曲线。展示了FedAvg和FedProx方法完美传输和考虑传输失败的识别效果，其中“fedavg_noniid_cm”以及“fedprox_noniid_cm”考虑了客户通信条件存在差异。可以看出，由于存在客户上传模型失败的情况，最终服务器端收到的更新数量小于N，则通过式更新全局模型则会导致偏向成功传输的客户模型，因而考虑通信条件之后的识别准确率曲线波动较大，而FedProx的本地损失函数限制了本地模型偏移初始全局模型过大，相比于FedAvg性能更加鲁棒。

图5是在考虑本地数据间非独立同分布以及上行信道不完美存在通信传输失败的情况下，使用不同客户选择方法获得的识别准确率曲线。在考虑客户模型可能传输失败的情况下，FedProx中的客户选择三种方法分别为：Random随机选择，Greedy每次选择信道条件最好的前N个客户，TD3根据策略输出选择的N个客户。Greedy选择了通信较好的客户，传输失败的情况较少，因而相较于Random识别准确率曲线更加平滑；TD3既考虑了通信质量又考虑了数据质量，识别准确率曲线平滑，且相比其他两种方法，最终的识别准确率更高。

Claims

1.一种基于深度强化学习的联邦学习客户选择方法，其特征是用于联邦学习的客户选择过程，考虑客户数据质量以及上行信道状况差异，将客户选择问题建模为马尔科夫决策过程，并设计其中的状态空间、动作空间以及奖励函数，训练智能体动态选择客户设备参与聚合，以提高每轮全局模型的准确性，并减少达到目标准确率所需的通信轮数。

2.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法，其特征是，该选择方法按以下步骤进行：

步骤2，客户k接收到全局模型参数后，利用本地数据在设备上进行学习训练，更新本地模型，并记录下两个训练过程中的损失值及/>指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失，/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值；

步骤5，客户k通过上行信道上传第t+1轮本地模型到服务器端，对于客户k，其信干噪比表示为/>

步骤6，中央服务器采用FedAvg算法中按样本数平均聚合的方式，更新全局网络参数模型。

3.根据权利要求1或2所述的一种基于深度强化学习的联邦学习客户选择方法，其特征是，所述状态空间是指客户k第t轮数据样本数量，/>指客户k第t轮接收到全局模型后训练遍历一次本地数据集的损失，/>指客户k第t轮完成本地训练后学习获得的本地网络模型在统一训练集上的损失值，/>指客户k第t轮信道的大尺度衰落功率增益因子，包括路径损耗和阴影衰落，/>指客户k第t轮信道的小尺度衰落功率增益因子。

4.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法，其特征是，所述动作空间是对应第t轮客户k的一个权重大小，ρ按从大到小排列，选择对应的前N个设备。

5.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法，其特征是，所述奖励函数是其中z为大于1的常数，/>为t轮训练后的全局模型的识别准确率，Ω为目标准确率，/>当未达到目标准确率时r_t＜0，达到目标准确率时，联邦学习训练停止，r_t＝0。

6.根据权利要求1或2所述的一种基于深度强化学习的联邦学习客户选择方法，其特征是，所述训练智能体动态选择客户设备参与聚合，具体为服务器端接收到客户信息作为智能体的观测空间，并将其输入TD3的决策网络中，输出动作按照ρ由大到小选择对应的N个客户参与本次聚合。