CN116866974A - 一种基于深度强化学习的联邦学习客户选择方法 - Google Patents
一种基于深度强化学习的联邦学习客户选择方法 Download PDFInfo
- Publication number
- CN116866974A CN116866974A CN202310905899.0A CN202310905899A CN116866974A CN 116866974 A CN116866974 A CN 116866974A CN 202310905899 A CN202310905899 A CN 202310905899A CN 116866974 A CN116866974 A CN 116866974A
- Authority
- CN
- China
- Prior art keywords
- client
- round
- learning
- training
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000010187 selection method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004891 communication Methods 0.000 claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 13
- 238000004220 aggregation Methods 0.000 claims abstract description 13
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000005562 fading Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009977 dual effect Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明公开了一种基于深度强化学习的联邦学习客户选择方法:将客户选择问题建模为马尔科夫决策过程,将客户的数据样本数量、数据分布、训练学习效果以及信道情况作为观测的状态空间,设计奖励使得达到设定的学习效果的训练轮数更少,通过双重延时深度确定性策略梯度算法(TD3)动态选择客户设备参与聚合。本发明考虑客户的数据质量以及通信质量的差异性,相比于随机选择以及通信贪婪选择方法更加鲁棒,能够加速模型收敛且达到更好的模型性能。
Description
技术领域
本发明属于无线通信与机器学习结合领域,涉及深度学习以及强化学习技术,为一种联邦学习中使深度强化学习TD3算法进行客户选择的方法。
背景技术
传统的机器学习收集数据至中心处理器进行训练及分析,然而,由于数据量过大,集中式的训练会产生巨大的数据传输成本;并且随着人们对信息安全的关注度不断提高,个人用户对于数据隐私保护的需求愈加强烈,集中处理可能会出现隐私泄露问题。同时,由于企业之间的相互竞争,数据往往以孤岛形式存在,无法直接利用。联邦学习是一种具有隐私保护的机器学习范式,它使各个客户在本地进行训练,只上传本地更新而不泄漏本地数据,最终实现合作训练全局模型。典型的联邦学习训练过程为:服务器广播当前的全局模型,每个客户利用本地数据进行训练,然后将更新的模型回传给服务器,服务器聚合收到的客户模型并更新全局模型,再将新的模型下发,直到模型的性能指标收敛。由于避免了把用户数据直接上传数据中心,联邦学习能良好地保护数据隐私安全;同时分布式的机器学习模式,使得它能够利用大量的移动终端设备的计算资源训练机器学习模型。
然而,联邦学习需要客户端与服务器之间不断进行通信,参与横向联邦学习的设备数量通常是很大的,甚至能够达到百万级的数量,这使通信成为联邦学习发展的一个重大瓶颈。并且设备之间有较大的异构性,会影响最终的模型质量。首先参与联邦学习的各个设备之间数据量的大小一般是不同的,并且数据分布通常是非独立同分布,会导致客户端本地训练呈现出不同的学习效果,将某些训练效果较差的本地模型聚合可能会造成全局模型的质量下降;其次,设备在计算能力、通信资源、剩余能量等方面也存在差异,在同步联邦学习中,所有客户端完成训练任务才能进行下一步,每轮训练时间由最慢的客户端决定,计算能力弱、信道状态差、剩余能量少的设备可能难以在能预置的时延范围内发送更新给服务器,导致训练收敛时间延长。因此如何合理决策哪些设备参与模型聚合,对于高质量的联邦学习至关重要。
因而,如何合理决策哪些设备参与模型聚合,对于高质量的联邦学习至关重要。
发明内容
技术问题:本发明针对现有技术的不足,提供一种基于深度强化学习的联邦学习客户选择方法,利用强化学习的自学习能力,帮助服务器做出客户选择决策,以提高每轮全局模型的准确性,并减少所需的通信轮数。
技术方案:本发明采用的一种基于深度强化学习的联邦学习客户选择方法包括以下步骤:
用于联邦学习的客户选择过程,考虑客户数据质量以及上行信道状况差异,将客户选择问题建模为马尔科夫决策过程,并设计其中的状态空间、动作空间以及奖励函数,训练智能体动态选择客户设备参与聚合,以提高每轮全局模型的准确性,并减少达到目标准确率所需的通信轮数。
该选择方法按以下步骤进行:
步骤1,中央服务器将当前第t轮的深度学习全局模型wt广播发送给参与当前训练的所有客户设备K={1,2,...,K};
步骤2,客户k接收到全局模型参数后,利用本地数据在设备上进行学习训练,更新本地模型,并记录下两个训练过程中的损失值及/> 指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失,/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值;
步骤3,客户k将本地第t轮设备信息打包发送给中央服务器端作为智能体的状态观测值中的一个元素;/>指客户k第t轮数据样本数量;/>指客户k第t轮信道的大尺度衰落功率增益因子,包括路径损耗和阴影衰落,/>指客户k第t轮信道的小尺度衰落功率增益因子,二者反映了客户端到服务器之间的信道状态;
步骤4,中央服务器根据接收到的客户k第t轮的信息通过TD3算法辅助选择N个客户设备;
步骤5,客户k通过上行信道上传第t+1轮本地模型到服务器端,对于客户k,其信干噪比表示为
式中σ2为噪声功率,ΦI指被选中上传的N个设备中除设备k之外的其他客户,P为设备传输功率,客户k第t轮上行数据速率表示为:
B为系统的总带宽,设需传输的数据量大小为W,限定一轮的传输时间为Tcm,则客户端成功传输模型更新到服务器端的条件为若不满足传输成功条件,则丢弃该客户此次更新;
步骤6,中央服务器采用FedAvg中按样本数平均聚合的方式,更新全局网络参数模型。
所述状态空间是 指客户k第t轮数据样本数量,/>指客户k第t轮接收到全局模型后训练遍历一次本地数据集的损失,/>指客户k第t轮完成本地训练后学习获得的本地网络模型在统一训练集上的损失值,/>指客户k第t轮信道的大尺度衰落功率增益因子,包括路径损耗和阴影衰落,/>指客户k第t轮信道的小尺度衰落功率增益因子。
所述动作空间是 对应第t轮客户k的一个权重大小,ρ按从大到小排列,选择对应的前N个设备。
所述奖励函数是其中z为大于1的常数,/>为t轮训练后的全局模型的识别准确率,Ω为目标准确率,/>当未达到目标准确率时rt<0,达到目标准确率时,联邦学习训练停止,rt=0。
所述训练智能体动态选择客户设备参与聚合,具体为服务器端接收到客户信息作为智能体的观测空间,并将其输入TD3的决策网络中,输出动作按照ρ由大到小选择对应的N个客户参与本次聚合。
有益效果:本发明的主要创新点是考虑了实际通信环境中上行信道不完美,传输存在失败的情况针对客户的数据质量以及通信质量的差异性,提出了一种基于双重延时深度确定性策略梯度算法(TD3)的客户选择算法,通过强化学习方法动态选择客户设备参与聚合,加速全局模型的收敛。利用强化学习的自学习能力,帮助服务器做出客户选择决策,以提高每轮全局模型的准确性,并减少所需的通信轮数。
附图说明
图1是本联邦学习客户选择方法中应用的联邦学习工作流程图。
图2是本联邦学习客户选择方法中基于强化学习方法的联邦学习客户选择架构图。
图3是在本地数据之前不同分布情况下联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。
图4是在考虑本地数据间非独立同分布的同时考虑上行信道不完美存在通信传输失败的情况下,联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。
图5是在考虑本地数据间非独立同分布的同时考虑上行信道不完美存在通信传输失败的情况下,使用不同客户选择方法获得的联邦学习基于FashionMNIST数据集的图片识别任务的识别准确率曲线。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明:
如图1所示:本发明的具体实施步骤如下:
1)中央服务器将当前第t轮的深度学习全局模型wt广播发送给参与当前训练的所有客户设备K={1,2,...,K}。
2)客户k接收到全局模型参数后,利用本地数据在设备上进行学习训练,更新本地模型。客户端本地执行梯度下降算法,本地的网络模型权重更新表示为:
式中η为学习率,为本地损失函数的梯度,ξk是客户k本地数据集Dk中一小批数据,Fk(w,ξk)是关于数据ξk的本地损失函数。
并记录下两个训练过程中的损失值及/> 指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失,/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值。
3)客户将本地设备信息打包发送给服务器端作为智能体的状态观测值中的一个元素。
指客户k第t轮数据样本数量;/>指客户k第t轮信道的大尺度衰落功率增益因子,包括路径损耗和阴影衰落,/>指客户k第t轮信道的小尺度衰落功率增益因子,二者反映了客户端到服务器之间的信道状态。
4)中央服务器根据接收到的客户信息通过TD3算法输出K维连续动作值/>最终的客户选择决策按ρ值的大小从高到低顺序选择前N个客户设备。
5)客户通过上行信道上传本地模型到服务器端。对于客户k,信干噪比/>表示为:
式中σ2为噪声功率,P为设备传输功率,ΦI指被选中上传的N个设备中除设备k之外的其他客户,设系统的总带宽为B,所有客户共用一个频段,其上行数据速率可以表示为:
设需传输的数据量大小为W,限定一轮的传输时间为Tcm,则客户端成功传输模型更新到服务器端的条件为若不满足传输成功条件,则丢弃该客户此次更新。
6)中央服务器采用FedAvg中按样本数平均聚合的方式,更新全局网络参数模型:
其中,N为客户总数,客户k有dk个本地数据样本,d为全部客户端拥有的数据样本量
强化学习训练及使用场景如如图2所示:
客户信息作为智能体的观测空间,智能体根据输入的状态输出动作/>并选择N个客户参与本次聚合,根据聚合后得到的全局模型性能,反馈给智能体一个奖励值,具体来说,使用的奖励函数R为:/>其中z为大于1的常数,/>为t轮训练后的全局模型的识别准确率,Ω为目标准确率,/>当未达到目标准确率时rt<0,达到目标准确率时,联邦学习训练停止,rt=0。
以下所有仿真结果都是基于经典的FashionMNIST数据集的图像识别的联邦学习训练任务。通信环境考虑拥有一个基站,K=20个用户的蜂窝无线网络,每轮选择N=5个设备参与训练,考虑3GPP TR36.873中的3D-Umi(Urban Micro cell)场景,小区半径200米,基站天线高度为10米,载波中心频率2GHz,用户移动速度3km/h,上行传输功率大小为20dBm,上行链路带宽大小10MHz,噪声功率谱密度-174dBm/Hz。
图3是在本地数据之前不同分布情况下的识别准确率曲线。对比FedAvg和FedProx方法上在独立同分布以及非独立同分布上的识别效果可以看出,客户数据非独立同分布会减缓联邦学习的学习收敛速度,并且导致识别性能波动较大,FedProx算法相比于FedAvg算法对非独立同分布情况更加鲁棒。
图4是在考虑本地数据间非独立同分布以及上行信道不完美存在通信传输失败的情况下的识别准确率曲线。展示了FedAvg和FedProx方法完美传输和考虑传输失败的识别效果,其中“fedavg_noniid_cm”以及“fedprox_noniid_cm”考虑了客户通信条件存在差异。可以看出,由于存在客户上传模型失败的情况,最终服务器端收到的更新数量小于N,则通过式更新全局模型则会导致偏向成功传输的客户模型,因而考虑通信条件之后的识别准确率曲线波动较大,而FedProx的本地损失函数限制了本地模型偏移初始全局模型过大,相比于FedAvg性能更加鲁棒。
图5是在考虑本地数据间非独立同分布以及上行信道不完美存在通信传输失败的情况下,使用不同客户选择方法获得的识别准确率曲线。在考虑客户模型可能传输失败的情况下,FedProx中的客户选择三种方法分别为:Random随机选择,Greedy每次选择信道条件最好的前N个客户,TD3根据策略输出选择的N个客户。Greedy选择了通信较好的客户,传输失败的情况较少,因而相较于Random识别准确率曲线更加平滑;TD3既考虑了通信质量又考虑了数据质量,识别准确率曲线平滑,且相比其他两种方法,最终的识别准确率更高。
Claims (6)
1.一种基于深度强化学习的联邦学习客户选择方法,其特征是用于联邦学习的客户选择过程,考虑客户数据质量以及上行信道状况差异,将客户选择问题建模为马尔科夫决策过程,并设计其中的状态空间、动作空间以及奖励函数,训练智能体动态选择客户设备参与聚合,以提高每轮全局模型的准确性,并减少达到目标准确率所需的通信轮数。
2.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法,其特征是,该选择方法按以下步骤进行:
步骤1,中央服务器将当前第t轮的深度学习全局模型wt广播发送给参与当前训练的所有客户设备K={1,2,...,K};
步骤2,客户k接收到全局模型参数后,利用本地数据在设备上进行学习训练,更新本地模型,并记录下两个训练过程中的损失值及/>指第t轮客户k接收到全局模型后训练遍历一次本地数据集的损失,/>指第t轮客户k完成本地训练后学习获得的本地网络模型在统一训练集上的损失值;
步骤3,客户k将本地第t轮设备信息打包发送给中央服务器端作为智能体的状态观测值中的一个元素;/>指客户k第t轮数据样本数量;/>指客户k第t轮信道的大尺度衰落功率增益因子,包括路径损耗和阴影衰落,/>指客户k第t轮信道的小尺度衰落功率增益因子,二者反映了客户端到服务器之间的信道状态;
步骤4,中央服务器根据接收到的客户k第t轮的信息通过TD3算法辅助选择N个客户设备;
步骤5,客户k通过上行信道上传第t+1轮本地模型到服务器端,对于客户k,其信干噪比表示为/>
式中σ2为噪声功率,ΦI指被选中上传的N个设备中除设备k之外的其他客户,P为设备传输功率,客户k第t轮上行数据速率表示为:
B为系统的总带宽,设需传输的数据量大小为W,限定一轮的传输时间为Tcm,则客户端成功传输模型更新到服务器端的条件为若不满足传输成功条件,则丢弃该客户此次更新;
步骤6,中央服务器采用FedAvg算法中按样本数平均聚合的方式,更新全局网络参数模型。
3.根据权利要求1或2所述的一种基于深度强化学习的联邦学习客户选择方法,其特征是,所述状态空间是 指客户k第t轮数据样本数量,/>指客户k第t轮接收到全局模型后训练遍历一次本地数据集的损失,/>指客户k第t轮完成本地训练后学习获得的本地网络模型在统一训练集上的损失值,/>指客户k第t轮信道的大尺度衰落功率增益因子,包括路径损耗和阴影衰落,/>指客户k第t轮信道的小尺度衰落功率增益因子。
4.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法,其特征是,所述动作空间是 对应第t轮客户k的一个权重大小,ρ按从大到小排列,选择对应的前N个设备。
5.根据权利要求1所述的一种基于深度强化学习的联邦学习客户选择方法,其特征是,所述奖励函数是其中z为大于1的常数,/>为t轮训练后的全局模型的识别准确率,Ω为目标准确率,/>当未达到目标准确率时rt<0,达到目标准确率时,联邦学习训练停止,rt=0。
6.根据权利要求1或2所述的一种基于深度强化学习的联邦学习客户选择方法,其特征是,所述训练智能体动态选择客户设备参与聚合,具体为服务器端接收到客户信息作为智能体的观测空间,并将其输入TD3的决策网络中,输出动作按照ρ由大到小选择对应的N个客户参与本次聚合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905899.0A CN116866974A (zh) | 2023-07-24 | 2023-07-24 | 一种基于深度强化学习的联邦学习客户选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905899.0A CN116866974A (zh) | 2023-07-24 | 2023-07-24 | 一种基于深度强化学习的联邦学习客户选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116866974A true CN116866974A (zh) | 2023-10-10 |
Family
ID=88232076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310905899.0A Pending CN116866974A (zh) | 2023-07-24 | 2023-07-24 | 一种基于深度强化学习的联邦学习客户选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116866974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117692939A (zh) * | 2024-02-02 | 2024-03-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
-
2023
- 2023-07-24 CN CN202310905899.0A patent/CN116866974A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117692939A (zh) * | 2024-02-02 | 2024-03-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
CN117692939B (zh) * | 2024-02-02 | 2024-04-12 | 南京邮电大学 | 一种动态通信环境下的客户端调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennis et al. | Ultrareliable and low-latency wireless communication: Tail, risk, and scale | |
Qiong et al. | Towards V2I age-aware fairness access: A DQN based intelligent vehicular node training and test method | |
Yoshida et al. | MAB-based client selection for federated learning with uncertain resources in mobile networks | |
Xia et al. | Federated-learning-based client scheduling for low-latency wireless communications | |
CN109743210B (zh) | 基于深度强化学习的无人机网络多用户接入控制方法 | |
Meng et al. | Closed-form delay-optimal computation offloading in mobile edge computing systems | |
Lin et al. | Relay-assisted cooperative federated learning | |
Zuo et al. | Blockchain storage and computation offloading for cooperative mobile-edge computing | |
Dai et al. | Energy-efficient resource allocation for energy harvesting-based device-to-device communication | |
Ji et al. | Power optimization in device-to-device communications: A deep reinforcement learning approach with dynamic reward | |
Yu et al. | Deep reinforcement learning-based RAN slicing for UL/DL decoupled cellular V2X | |
Qi et al. | Energy-efficient resource allocation for UAV-assisted vehicular networks with spectrum sharing | |
Park et al. | Minimizing latency to support VR social interactions over wireless cellular systems via bandwidth allocation | |
CN105379412A (zh) | 一种控制多个无线接入节点的系统和方法 | |
Gao et al. | Dynamic access point and service selection in backscatter-assisted RF-powered cognitive networks | |
Xu et al. | Dynamic client association for energy-aware hierarchical federated learning | |
Yang et al. | Multi-armed bandits learning for task offloading in maritime edge intelligence networks | |
CN116866974A (zh) | 一种基于深度强化学习的联邦学习客户选择方法 | |
Yuan et al. | Harnessing UAVs for fair 5G bandwidth allocation in vehicular communication via deep reinforcement learning | |
Ngo et al. | Two-tier cache-aided full-duplex hybrid satellite–terrestrial communication networks | |
Al-Habashna et al. | Cached and segmented video download for wireless video transmission | |
Yao et al. | Deep reinforcement learning based offloading scheme for mobile edge computing | |
Cui et al. | A two-timescale resource allocation scheme in vehicular network slicing | |
Song et al. | Multi-task and multi-objective joint resource optimization for UAV-assisted air-ground integrated networks under emergency scenarios | |
Zhang et al. | Toward intelligent resource allocation on task-oriented semantic communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |