CN116681126B - 一种自适应等待时长的异步加权联邦学习方法 - Google Patents
一种自适应等待时长的异步加权联邦学习方法 Download PDFInfo
- Publication number
- CN116681126B CN116681126B CN202310659294.8A CN202310659294A CN116681126B CN 116681126 B CN116681126 B CN 116681126B CN 202310659294 A CN202310659294 A CN 202310659294A CN 116681126 B CN116681126 B CN 116681126B
- Authority
- CN
- China
- Prior art keywords
- round
- model parameters
- server
- aggregation
- waiting time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002776 aggregation Effects 0.000 claims abstract description 65
- 238000004220 aggregation Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000005265 energy consumption Methods 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于移动通信技术领域,特别涉及一种自适应等待时长的异步加权联邦学习方法,包括服务器向客户端发起学习任务,并广播初始化全局模型参数;客户端开始本地训练,并上传训练好的模型参数及参数生成轮数k;服务器采用DDQN算法决策出本轮训练等待时长;服务器执行自适应等待时长算法收集用户数据;服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,得到全局模型参数;将聚合得到的全局模型参数广播给本轮参与聚合的用户;重复以上步骤直到全局模型参数达到目标精度;本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能,为边缘计算网络中的各种应用提供更好的支持。
Description
技术领域
本发明属于移动通信技术领域,特别涉及一种自适应等待时长的异步加权联邦学习方法。
背景技术
随着现代无线通信技术的快速发展以及智能设备的不断进步,我们的日常生活正源源不断地产生着大量数据,并且所产生的数据量呈现指数级增长,数据价值愈发显著。为了充分挖掘这些数据潜在价值,有必要对其进行整合、分析和处理。然而,在传统集中式计算框架下,数据传输和处理所需时间和计算资源颇为显著,且存在数据隐私和安全等一系列挑战
联邦学习以分布式机器学习为框架,在保障用户数据安全隐私以及遵守相关法律法规的前提下,实现数据共享,共同建模,解决了“数据孤岛”现象,促进了人工智能的发展。
边缘计算网络的出现使得移动设备的计算能力得到大幅提升,同时也为联邦学习的应用提供了更好的支持。
边缘计算和联邦学习在智能交通中的应用可以解决许多问题,例如交通流量预测、智能路况监控和智能交通安全等。以交通流量预测为例,交通数据和地理数据分布到多个边缘设备上,例如路边的摄像头、交通信号灯等,在每个边缘设备上,利用联邦学习算法进行模型训练,例如基于神经网络的模型,预测未来几小时的交通流量,将训练好的模型上传到云端,进行模型聚合,获得最终的预测结果。通过这种方式,可以实现交通流量预测的实时性和精准性,并且不需要将原始数据传输到云端,保证了数据隐私和安全性。
但当前联邦学习在边缘计算中的应用也存在许多问题:
1)传统的联邦学习是同步学习,采用固定等待时长,通常要花费大量的等待时间,将参与训练的用户全部等来,因此时间利用率低,收敛速度慢;
2)在异步联邦学习中,异步通信需要在每个客户端和中心服务器之间进行频繁的通信,并且在传输模型参数时需要进行额外的同步和解析操作;这些操作不仅会增加通信的延迟和带宽开销,还会影响计算资源的利用效率;
3)异步联邦学习中,每个设备可以以不同的速度更新其本地模型,不同设备的模型参数可能会相互抵消或产生不良影响,这种不一致可能会导致模型性能下降,降低训练过程的稳定性。
综合上述问题,本发明设计了一种自适应等待时长的异步联邦学习方案,中心服务器利用DDQN算法,通过不断地调整每一轮训练的等待时长,来控制每一轮参与全局模型聚合的用户数量,避免了无效的等待,以此方式来达到最优化收敛时间和能耗的目的;同时在全局模型聚合时,采用时间权值,贡献度权值,数据量权值综合加权聚合,提高了训练进程的稳定性,加快了全局模型的收敛速度。
发明内容
有鉴于此,本发明提出一种自适应等待时长的异步加权联邦学习方法,具体包括以下步骤:
101、服务器向客户端发起学习任务,并广播初始化全局模型参数;
102、客户端开始本地训练,并上传训练好的模型参数及参数生成轮数k;
103、服务器采用DDQN算法决策出本轮训练等待时长;
104、服务器执行自适应等待时长算法收集用户数据;
105、服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,得到全局模型参数;
106、将聚合得到的全局模型参数广播给本轮参与聚合的用户;
107、重复步骤102~106直到全局模型参数达到目标精度。
进一步的,服务器采用DDQN算法决策出本轮训练等待时长的过程包括:
设置状态空间S∈{S=s|θr,Tr,Nr},动作空间A∈{A=a|±τ,±2τ,±3τ,±4τ,±5τ},以及奖励G∈{G=g|-(αTr+βNr)·f(θr)+γ·Δθr};
服务器将上一轮的全局模型测试精度,耗时以及参与聚合的用户数量输入到DQN算法中的Q网络,得到本轮的等待时间τ;
本轮聚合结束后,服务器记录第r轮总耗时Ttotal,及第r轮参与全局聚合的用户的数量Nr,测试第r轮聚合后全局模型的精度θr,及第r轮精度增长幅度Δθr,最后服务器获得奖励{-(αTr+βNr)·f(θr)+γ·Δθr};
其中,s表示一个状态,(θr,Tr,Nr)表示一个状态的状态参数;Tr为第r轮的耗时;a表示一个动作,τ为动作空间一最小时间单位;g表示一个奖励值;α、β、γ为奖励函数系数;f(θr)为一随测试精度不断增加而衰减的函数。
进一步的,服务器执行自适应等待时长算法收集用户数据,即服务器收到客户端用户上传的数据后,根据步骤104的等待时长进行等待,若在等待时长时间内再次收到用户数据,则重新根据等待时长进行等待;若在等待时长时间内没有收到任何用户数据,则结束收集用户数据。
进一步的,步骤105服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,聚合公式为:
其中,Wr为全局模型参数;N为客户端数量;Dn为第n个用户的数据量大小;D为全体用户总数据量大小;为第n个用户在第r轮上传的模型参数;/>为模型参数新鲜度与贡献度权值。
进一步的,模型参数新鲜度与贡献度权值表示为:
其中,r为当前训练轮次;k为用户端的全局模型参数所属的训练轮次;为第n个用户第k轮训练前的原始参数;e为自然常数;μ、/>为统一权重数量级的系数。
本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能,为边缘计算网络中的各种应用提供更好的支持。同时,本发明可以对于用户隐私保护、模型安全性等问题提供一定的解决思路,具有一定的理论和实践意义。
附图说明
图1为本发明自适应等待时长的异步加权联邦学习模型图;
图2为本发明方案中的自适应等待时长算法模型图;
图3为本发明方案的整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种自适应等待时长的异步加权联邦学习方法,具体包括以下步骤:
101、服务器向客户端发起学习任务,并广播初始化全局模型参数;
102、客户端开始本地训练,并上传训练好的模型参数及参数生成轮数k;
103、服务器采用DDQN算法决策出本轮训练等待时长;
104、服务器执行自适应等待时长算法收集用户数据;
105、服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,得到全局模型参数;
106、将聚合得到的全局模型参数广播给本轮参与聚合的用户;
107、重复步骤102~106直到全局模型参数达到目标精度。
边缘计算网络中,利用联邦学习技术,在保障用户数据安全隐私以及遵守相关法律法规的前提下,实现数据共享,共同建模,解决了“数据孤岛”现象。例如,边缘计算和联邦学习技术相结合,应用于智能交通系统中,实现交通流量预测、智能路况监控和智能交通安全等。然而由于在同步联邦学习中,学习收敛速度慢,等待时间长,效率低,同时在异步联邦学习中,通信、计算资源消耗过高,且训练具有不稳定性,为联邦学习在实际生活中的应用提供了层层阻碍。为了解决上述问题,本发明首先设计了一种自适应等待时长的异步联邦学习算法,用来减少无用的等待时间,加快收敛速度。其次,本发明的方案中,服务器利用深度强化学习中的DDQN(Double Deep Q Network)算法决策出每一轮最佳等待时长,以此方式来控制每一轮的耗时以及资源消耗,优化联邦学习的收敛速度和能耗。最后本发明设计异步加权聚合算法,服务器根据用户上传数据的“新鲜度”、“贡献度”以及数据量的大小,赋予其相应的权值以参与全局模型聚合,提高训练过程的稳定性。本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能,为边缘计算网络中的各种应用提供更好的支持。本实施例目的是提供一种自适应等待时长的异步联邦学习方案。该方案根据边缘计算网络中联邦学习场景的特性,联合优化联邦学习的收敛耗时,用户资源消耗,模型精度,该方法包括以下步骤:
S1:服务器向参与联邦学习的客户端发起学习任务;
S2:参与联邦学习的客户端开始本地训练,并上传训练好的模型参数和参数生成轮数k;
S3:服务器决策出本轮训练等待时长τ;
S4:服务器执行自适应等待时长联邦学习算法收集用户上传的数据;
S5:服务器执行异步加权聚合算法将收集到的客户端上传的模型参数进行聚合;
S6:将更新好的全局模型广播给本轮参与聚合的用户;
S7:重复S2-S6直到全局模型测试精度达到目标精度要求
进一步,在步骤S2中,中心服务器通过DDQN算法,动态的调整每一轮的等待时长,控制每一轮参与聚合用户数量,减少无效的等待时间。以此方式,达到加快联邦学习的收敛速度,减少能耗的目的。
在步骤S4中,中心服务器在收到客户端用户上传的数据(数据包括用户本地训练好的模型参数w以及轮数k)后,开始等待时间τ,如果在等待时间τ内再次收到用户数据,则重新等待时间τ;若等待时间τ内没有接收到任何数据,则对已经收集到的模型参数进行聚合。聚合后将更新后的全局模型参数发送给参与聚合的用户,开启下一轮训练。
在步骤S5中,服务器停止等待后,将用户上传的模型参数加权后聚合更新,获得新的模型参数,聚合公式如下:
其中,Wr为第r轮聚合后的模型参数;为第n个用户在第r轮上传的模型参数,为模型参数新鲜度与贡献度权值,/>为第n个用户的数据量大小权值,D为全体用户总数据量大小,Dn为第n个用户的数据量大小。/>的计算公式如下:
其中,贡献度权值为其中r表示服务器第r轮聚合,k表示模型参数生成的轮数即用户上传的参数是基于第几次聚合后的全局模型参数进行本地训练的。/>为第n个用户第k轮更新好的模型参数,/>为第n个用户第k轮在训练前的原始参数。/>为用户模型对全局模型的贡献度,研究表明,/>越大,对全局模型的快速收敛越有利。
由于本发明的架构特点,用户在某一轮训练好的参数由于自身训练速度慢,或者设备短时间离线等因素,导致没有参与当前轮数的聚合,而是参与了往后几轮的全局模型聚合,为了削弱旧参数对新一轮模型聚合的不利影响,使其发挥对全局模型聚合的促进作用,故对用户模型参数赋予时间新鲜度权值。为时间新鲜度权值,简称时间权值,时间越久的参数,对全局聚合的贡献就越低,会被赋予低的权值,越新的模型参数,权值越高;设置μ和/>两个系数来控制各个权重的量级。
通过本发明中聚合公式进行对服务器收到的用户上传的模型参数进行全局模型的聚合,提高了异步联邦学习进程的稳定性,加快联邦学习的收敛速度。
1.建模分析及优化目标:
设联邦学习训练m轮后达到目标精度要求,第n个用户在第r轮计算能耗为第r个用户第r轮的传输速率/>由香农公式得:
其中,为第n个用户在第r轮的信道增益,/>为第n个用户在第r轮的发射机功率,/>为n个用户在第r轮的带宽。
第n个用户在第r轮的传输能耗为:
其中,表示第n个用户在第r轮的传输能耗;/>为第n个用户在第r轮的上传模型的数据量的大小,N0为噪声功率谱密度,/>0表示第n个用户在第r轮不参与聚合,1表示参与聚合。因此,第n个用户训练m轮后总能耗:
除首轮训练外,每一轮训练以收到上一轮参与训练的用户返回来的第一个数据为起始时刻,开始计时等待,则训练m轮后总等待耗时为:
其中,表示第r轮最后一个用户被选择时服务器等待的时长,τr为第r轮的等待时间间隔。总的通信次数:
其中,Nr表示第r轮一共有Nr个用户参与聚合。客户端向服务器发起的的每一次通信,都会产生通信资源的消耗,同时,也代表着客户端完成一次本地训练,产生能源消耗,因此我们通过降低总通信次数来减少联邦学习中的能耗。
每一轮是随机的,每一轮的耗时也是随机的,但每一轮的耗时有上限,上限为Nr·τr。即第r轮Nr个用户参与聚合,且从第一个用户到第Nr个用户,以τr为时间间隔,等间隔陆续被服务器接收。
因此,
本发明优化目标如下:
约束条件:Lm(W)-L(W*)≤ε (9)
即最小化收敛时间及通信次数。
其中,(8)中Nr,为第r轮参与聚合的用户数量,也为第r轮的通信次数,为总的通信次数,/>为收敛时间上限;α,β为系数,用于统一单位和数量级;(9)要求联邦学习训练结果最终全局模型参数要收敛于最优全局模型参数,Lm(W)为全局模型参数W在第m轮的损失函数;(10)为用户设备的设备资源限制,En limit为第n个用户可使用的资源;(11)是保证服务器每一轮不会无休止的等待,防止特殊情况发生;(13)和(14)分别为每一轮等待时长的取值范围和每一轮参与训练的用户数量的取值范围,N为总的用户数量。
设用户到达过程满足泊松过程,到达率为λ,则第r轮参与训练的用户数量关于τr的期望为:
E(τr)=eλτ[1-(1-e-λτ)N] (15)
因此,我们将优化目标改为如下:
存在最优等待时间间隔向量τ*=[τ1,τ2,τ3...τm],以及最优收敛轮数m*使得:
且:其中,/>为最优等待时间间隔向量τ*下对应的全局模型参数的损失函数,L(W*)为全局最优损失函数,ε为收敛间隙。
2.解决方案
在异步联邦学习中,忽略中心服务器聚合时间,其耗时主要来源于等待,智能交通系统对实时性要求非常高,在本实施例中对等待时长进行优化。
步骤S2中,服务器通过不断地调整每一轮的等待时间,动态的控制每一轮参与训练的用户数量,从而最小化收敛时间和通信能耗,这是一个复杂的决策问题,这类问题无法确定当前状态和操作之间的关系,现有的动态规划算法很难解决。因此,本发明提出了一种基于深度强化学习的自适应等待时长算法来解决这个问题。同时,为了在有限的资源下更快地得完成模型的训练,本发明采用了一种奖励和惩罚相结合的方案,该方案将在具体实施方安中将详细介绍。
采用DDQN算法,服务器中的智能体根据每一轮的聚合情况,决策出每一轮的τr,利用过去的轮数产生的经验不断学习,优化未来轮数的方案选择,最终获得通信次数与收敛时间都最小化的方案。本发明中,由于服务器中的智能体也是部署在服务器上,因此本实施例将执行全局模型聚合的服务器与执行深度强化学习的智能体统称为服务器。
在本实施例中将当前状态输入Q网络,当前状态包括当前全局模型精度、当前训练耗时、当前能耗情况,当执行一个动作后,获得本轮次的等待时长,在本轮次全局聚合后获得新的状态。
DDQN算法中,本发明将状态空间,动作空间,奖励设置如下:
状态空间:S∈{S=s|(θr,Tr,Nr)};
动作空间:A∈{A=a|±τ,±2τ,±3τ,±4τ,±5τ};
奖励:G∈{G=g|-(αTr+βNr)·f(θr)+γ·Δθr};
其中,状态空间中,θr为第r轮的聚合后的测试精度,Tr是第r轮耗时,Nr为第r轮参与全局聚合的用户的数量,在本实施例中假设各用户通信能耗近似相等,每当有一个用户参与一次全局模型聚合,就会对服务器进行一次数据传输,就会产生一次通信资源的消耗,因此用Nr来评估本发明中通信能耗,Nr越大,第r轮通信资源消耗就越多,Nr也可以用来表示第r轮的能耗情况。
动作空间中τ为一最小时间单位,服务器每一轮利用DDQN算法,决定本轮等待时长比较上一轮时增加还是减少,以及增加或者减少的数值为多少;
奖励Δθr=θr-θr-1为第r轮训练精度增长幅度;Tr为第r轮耗时,Nr在本实施例中可以表示第r轮能耗,α、β、γ为系数,f(θr)为一随测试精度不断增加而衰减的函数;
服务器将上一轮的全局模型测试精度,耗时以及参与聚合的用户数量输入到DQN算法中的Q网络,得到本轮的等待时间τ;
本轮聚合结束后,服务器记录本轮总耗时Ttotal,及本轮参与全局聚合的用户的数量Nr,测试本轮聚合后全局模型的精度θr,及精度增长幅度Δθr,最后服务器获得奖励{-(αTr+βNr)·f(θr)+γ·Δθr},服务器的目标是使累计奖励最大化。
如图1,本实施例给出一种自适应等待时长的异步联邦学习方法,具体包括以下步骤:
①在服务器中通过DDQN设定本轮等待时间;
②服务器向用户发送全局模型参数(用户包括电脑、手机、平板、车辆等类型的终端);
③用户进行本地训练;
④用户向服务器发送本地训练结束后的模型参数;
⑤执行自适应等待时长算法收集用户数据;
⑥执行异步加权聚合算法更新全局模型参数;
⑦向参与聚合的用户广播更新后的全局模型参数。
如图2所示,纵轴为时间轴,刻度为用户数据到达服务器时刻。服务器首先通过DDQN算法计算出本轮等待时长为2s,当接收到用户1发来的数据时,开始等待,2s内接收到用户2上传的数据,并在接收到用户2数据的时刻重新等待;当接收到用户4上传的数据后,等待2s后没有接收到任何用户上传的数据,服务器停止等待,选择用户1、用户2、用户3、用户4的模型参数进行全局聚合。下一轮,服务器通过DDQN算法得到本轮等待时间为2.5s,服务器收到用户5的数据后开始等待,在收到用户4上传的数据后,等待2.5s后,没有收到任何数据,服务器停止等待,选择用户5、用户6、用户2、用户1、用户4开始本轮全局模型聚合。注意,在本轮中,用户5与用户6的模型参数并不是基于上一轮服务器刚更新好的全局模型参数训练得到,因此在参与全局模型聚合时的时间权值会低于用户1、用户2、用户4。
图3是本实施例给出的本发明一种自适应等待时长的异步加权联邦学习方法的一个具体实施流程,具体包括:
步骤301:服务器向参与训练的全体用户发送初始化全局模型参数;初始化DDQN网络参数;设置最大等待时长Tmax和全局模型目标精度θ0;初始化集合S,集合S用户存放用户上传的数据;初始化计时器时间T=0,用户数量N=0;
步骤302:用户接收到全局模型参数后,开始本地训练,训练结束后,向服务器上传训练好的模型参数w和模型生成轮数k;
步骤303:服务器通过DDQN算法输出本轮训练等待时长τ;
步骤304:服务器第一次接收到用户上传的数据后,开始计时;
步骤305:将接收到的用户数据放入集合S,同时参与聚合的用户数量更新:N=N+1;
步骤306:服务器在用户数据到达后,等待时间τ,如果时间τ内再次接收到用户上传的数据,则执行步骤305,之后在新数据到达的时刻重新等待时间τ,如果等待时间τ后,没有用户数据抵达或者计时器时间T大于Tmax,则服务器停止等待;
步骤307:服务器执行异步加权聚合算法,聚合集合S中参数,得到新全局模型参数;
步骤308:记录全局模型测试精度θ=θr,精度增长率Δθ,本轮耗时T,用户数量N;
步骤309:服务器获得本轮奖励{-(αTr+βNr)·f(θr)+γ·Δθr};
步骤310:判断测试精度θ是否大于目标精度θ0,如果θ>θ0,则执行步骤312,如果θ<θ0,则执行步骤311;
步骤311:将测试精度θr=θ,本轮参与聚合的用户数量Nr=N,以及本轮耗时Tr=T输入到DDQN网络,之后向参与本次聚合用户发送更新好的全局模型参数并跳转至步骤302;
步骤312:结束联邦学习任务。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种自适应等待时长的异步加权联邦学习方法,其特征在于,具体包括以下步骤:
101、服务器向客户端发起学习任务,并广播初始化全局模型参数;
102、客户端开始本地训练,并上传训练好的模型参数及参数生成轮数k;
103、服务器采用DDQN算法依据当前联邦学习任务进程以及能耗决策出本轮训练等待时长;
104、服务器收到客户端用户上传的数据后,根据等待时长进行等待,若在等待时长时间内再次收到用户数据,则重新根据等待时长进行等待;若在等待时长时间内没有收到任何用户数据,则结束收集用户数据;
105、服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,得到全局模型参数;
106、将聚合得到的全局模型参数广播给本轮参与聚合的用户;
107、重复步骤102~106直到全局模型参数达到目标精度。
2.根据权利要求1所述的一种自适应等待时长的异步加权联邦学习方法,其特征在于,服务器采用DDQN算法决策出本轮训练等待时长的过程包括:
设置状态空间S∈{S=s|θr,Tr,Nr},动作空间A∈{A=a|±τ,±2τ,±3τ,±4τ,±5τ},以及奖励G∈{G=g|-(αTr+βNr)·f(θr)+γ·Δθr};
服务器将上一轮的全局模型测试精度,耗时以及参与聚合的用户数量输入到DQN算法中的Q网络,得到本轮的等待时间τ;
本轮聚合结束后,服务器记录第r轮总耗时Ttotal,及第r轮参与全局聚合的用户的数量Nr,测试第r轮聚合后全局模型的精度θr,及第r轮精度增长幅度Δθr,最后服务器获得奖励{-(αTr+βNr)·f(θr)+γ·Δθr};
其中,s表示一个状态,(θr,Tr,Nr)表示一个状态的状态参数;Tr为第r轮的耗时;a表示一个动作,τ为动作空间一最小时间单位;g表示一个奖励值;α、β、γ为奖励函数系数;f(θr)为一随测试精度不断增加而衰减的函数。
3.根据权利要求1所述的一种自适应等待时长的异步加权联邦学习方法,其特征在于,步骤105服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合,聚合公式为:
其中,Wr为全局模型参数;N为客户端数量;Dn为第n个用户的数据量大小;D为全体用户总数据量大小;为第n个用户在第r轮上传的模型参数;/>为模型参数新鲜度与贡献度权值。
4.根据权利要求3所述的一种自适应等待时长的异步加权联邦学习方法,其特征在于,模型参数新鲜度与贡献度权值表示为:
其中,r为当前训练轮次;k为用户端的全局模型参数所属的训练轮次;为第n个用户第k轮训练前的原始参数;e为自然常数;/>为统一权重数量级的系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659294.8A CN116681126B (zh) | 2023-06-06 | 2023-06-06 | 一种自适应等待时长的异步加权联邦学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659294.8A CN116681126B (zh) | 2023-06-06 | 2023-06-06 | 一种自适应等待时长的异步加权联邦学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681126A CN116681126A (zh) | 2023-09-01 |
CN116681126B true CN116681126B (zh) | 2024-03-12 |
Family
ID=87788534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310659294.8A Active CN116681126B (zh) | 2023-06-06 | 2023-06-06 | 一种自适应等待时长的异步加权联邦学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681126B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117221122B (zh) * | 2023-09-12 | 2024-02-09 | 南京邮电大学 | 一种基于带宽预分配的异步分层联合学习训练方法 |
CN117278540B (zh) * | 2023-11-23 | 2024-02-13 | 中国人民解放军国防科技大学 | 自适应边缘联邦学习客户端调度方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021219054A1 (zh) * | 2020-04-29 | 2021-11-04 | 深圳前海微众银行股份有限公司 | 横向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
CN114554459A (zh) * | 2022-01-19 | 2022-05-27 | 苏州大学 | 一种近端策略优化辅助的车联网联邦学习客户端选择方法 |
CN114726743A (zh) * | 2022-03-04 | 2022-07-08 | 重庆邮电大学 | 一种基于联邦强化学习的服务功能链部署方法 |
CN114827198A (zh) * | 2022-03-31 | 2022-07-29 | 电子科技大学 | 一种应用于车联网的多层中心异步联邦学习方法 |
CN115374853A (zh) * | 2022-08-22 | 2022-11-22 | 复旦大学 | 基于T-Step聚合算法的异步联邦学习方法及系统 |
CN115481748A (zh) * | 2022-08-30 | 2022-12-16 | 广东工业大学 | 一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统 |
CN115660075A (zh) * | 2022-11-10 | 2023-01-31 | 中国石油大学(华东) | 一种异步的联邦强化学习方法、设备及存储介质 |
CN115713113A (zh) * | 2022-11-29 | 2023-02-24 | 中山大学 | 一种自适应聚合的联邦学习系统、方法、装置及存储介质 |
-
2023
- 2023-06-06 CN CN202310659294.8A patent/CN116681126B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021219054A1 (zh) * | 2020-04-29 | 2021-11-04 | 深圳前海微众银行股份有限公司 | 横向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
CN114554459A (zh) * | 2022-01-19 | 2022-05-27 | 苏州大学 | 一种近端策略优化辅助的车联网联邦学习客户端选择方法 |
CN114726743A (zh) * | 2022-03-04 | 2022-07-08 | 重庆邮电大学 | 一种基于联邦强化学习的服务功能链部署方法 |
CN114827198A (zh) * | 2022-03-31 | 2022-07-29 | 电子科技大学 | 一种应用于车联网的多层中心异步联邦学习方法 |
CN115374853A (zh) * | 2022-08-22 | 2022-11-22 | 复旦大学 | 基于T-Step聚合算法的异步联邦学习方法及系统 |
CN115481748A (zh) * | 2022-08-30 | 2022-12-16 | 广东工业大学 | 一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统 |
CN115660075A (zh) * | 2022-11-10 | 2023-01-31 | 中国石油大学(华东) | 一种异步的联邦强化学习方法、设备及存储介质 |
CN115713113A (zh) * | 2022-11-29 | 2023-02-24 | 中山大学 | 一种自适应聚合的联邦学习系统、方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
"Adaptive Client Selection in Resource Constrained Federated Learning Systems: A Deep Reinforcement Learning Approach";HANGJIA ZHANG等;《Digital Object Identifier》;第9卷;第98423-98432页 * |
"基于自适应梯度压缩的高效联邦学习通信机制研究基于自适应梯度压缩的高效联邦学习通信机制研究";唐伦等;《电子与信息学报》;第45卷(第1期);第227-234页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116681126A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116681126B (zh) | 一种自适应等待时长的异步加权联邦学习方法 | |
Liu et al. | Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system | |
CN113537514B (zh) | 一种高能效的基于数字孪生的联邦学习框架 | |
Nath et al. | Multi-user multi-channel computation offloading and resource allocation for mobile edge computing | |
Tang et al. | Energy-efficient transmission scheduling in mobile phones using machine learning and participatory sensing | |
CN114465900B (zh) | 基于联邦边缘学习的数据共享时延优化方法及装置 | |
CN116610434A (zh) | 面向分层联邦学习系统的资源优化方法 | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
Kuang et al. | Client selection with bandwidth allocation in federated learning | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
CN113094180B (zh) | 无线联邦学习调度优化方法及装置 | |
Zhu et al. | Dynamic task offloading in power grid internet of things: A fast-convergent federated learning approach | |
CN112241295A (zh) | 一种基于深度强化学习的云边端协同计算卸载方法及系统 | |
CN115115064B (zh) | 一种半异步联邦学习方法及系统 | |
CN109874154B (zh) | 一种基于深度强化学习的c-ran用户关联和计算资源分配方法 | |
CN116137724A (zh) | 一种基于移动边缘计算的任务卸载及资源分配方法 | |
CN115150288B (zh) | 一种分布式通信系统和方法 | |
CN116193516A (zh) | 一种物联网场景下用于高效联邦学习的成本优化方法 | |
Fan et al. | Decentralized scheduling for concurrent tasks in mobile edge computing via deep reinforcement learning | |
WO2023184009A1 (en) | Systems and methods for cluster-based parallel split learning | |
Zhang et al. | Optimizing federated edge learning on Non-IID data via neural architecture search | |
Yin et al. | FedSCS: Client selection for federated learning under system heterogeneity and client fairness with a Stackelberg game approach | |
CN117834643B (zh) | 一种面向工业物联网的深度神经网络协同推理方法 | |
CN117076132B (zh) | 分层联邦学习系统的资源分配及聚合优化方法及装置 | |
Zhang et al. | Knowledge-Embedded Deep Reinforcement Learning for Autonomous Network Decision-Making Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |