CN117273119A - 一种基于强化学习的动态公平联邦学习方法及装置 - Google Patents
一种基于强化学习的动态公平联邦学习方法及装置 Download PDFInfo
- Publication number
- CN117273119A CN117273119A CN202311076328.7A CN202311076328A CN117273119A CN 117273119 A CN117273119 A CN 117273119A CN 202311076328 A CN202311076328 A CN 202311076328A CN 117273119 A CN117273119 A CN 117273119A
- Authority
- CN
- China
- Prior art keywords
- local
- model
- federal
- training
- federation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 121
- 230000002776 aggregation Effects 0.000 claims abstract description 49
- 238000004220 aggregation Methods 0.000 claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 230000007774 longterm Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 238000004891 communication Methods 0.000 abstract description 9
- 238000005259 measurement Methods 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于强化学习的动态公平联邦学习方法及装置,在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型,并计算本地模型的本地训练损失;将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合;在聚合阶段,将本地训练损失作为强化学习状态输入,根据状态及当前策略选择执行动作,根据执行动作和本地规模占比计算聚合权重,基于聚合权重完成该轮联邦聚合;根据当前全局联邦模型准确率设置奖励值,以优化强化学习;重复多轮联邦训练,直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信开销基础上,将各本地训练损失作为公平性度量,优化联邦聚合过程,实现公平联邦学习。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于强化学习的动态公平联邦学习方法及装置。
背景技术
深度学习模型的效果与数据的质与量是高度相关的。模型可以从高质量有代表性的数据中心学习有用的知识。但是,高质量的数据通常掌握在众多公司、组织与设备中,由于隐私、法规与利益等因素,这些数据不能在各方自由流动,难以集中起来训练模型。联邦学习可以在数据不出本地的条件下,采用多方协作的方式,学习各个客户端数据中隐含的知识,共同训练一个有效的模型。联邦学习的核心问题是非独立同分布问题,现有方法主要关注各客户端训练数据分布的差异。
目前,经典的联邦学习算法通过基于本地训练数据规模从而计算加权平均值来聚合不同参与客户端的模型,进而得到全局联邦模型。由于联邦环境下不同客户端上数据规模和分布的异构性,仅最小化全局联邦模型中的总损失会不成比例地对某些客户端的模型表现产生影响,尤其会导致客户端之间结果的一致性丧失。尽管全局联邦模型在测试集上平均精度很高,但无法保证该模型在单个设备的准确性。
强化学习是一种通过智能体与环境的交互,根据反馈学习一种策略的技术,这种策略可以表示为一组参数,这种由参数表示的策略,可以通过联邦学习的方式迭代训练。
现有技术中,一部分研究着重于分析客户端回传的梯度冲突情况以调整联邦聚合时的公平性问题,如AFL、FedFV等。但这类方法在每轮联邦通信中采用随机选择客户端进行联邦聚合优化,在聚合阶段,不同客户端上的本地数据分布不均衡,导致各个客户端上的梯度方差可能远大于来自多个选定客户端的加权平均,从而导致潜在的收敛稳定性问题。
另一部分研究工作则是借鉴公平性指标,如以各个客户端上的损失、准确率等指标量化联邦聚合的公平情况,从公平分配角度调整聚合权重实现公平性学习。如q-FFL借用资源配置的思路,将公平性作为资源进行分配,对训练时具有较高损失值的客户端调整更大的占比权重以实现联邦聚合时均匀分配,还提出一种类似FedAvg的算法q-FedAvg来解决其提出的目标,并利用估计的Lipschitz常数来避免调整不同q的学习率。α-FedAvg借鉴公平度量计算方式融入到对联邦模型系统的公平量化中,并采用梯度逼近算法求解联邦聚合权重,进而达到联邦学习系统公平和有效性的平衡。PG-FFL通过引入Gini系数衡量全局联邦模型在各个客户端上的表现,并采用强化学习的方式将模型的精度和公平性作为优化目标,将求解最优模型问题转化为马尔可夫决策问题,以一个公平性调整插件的形式融入到联邦学习中。DRFL则融合了α-fairness,并将损失偏差和客户端选择策略相结合,动态分配每个客户端的权重,促进公平联邦学习。但这类方法在使用α-fairness公平量化指标时参数难以确定,依赖数据集和联邦环境,对调参有较高的要求;且由于联邦学习是在每轮中都需要对准确性和公平性进行调整,这类方法当指标计算方式确定后,便缺乏动态适应性。
发明内容
鉴于此,本发明实施例提供了一种基于强化学习的动态公平联邦学习方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术由于不同客户端本地数据分布不均衡导致的收敛稳定性问题、在使用α-fairness公平量化指标时参数难以确定,依赖数据集和联邦环境,对调参有较高要求的问题、以及缺乏动态适应性的问题。
一方面,本发明提供了一种基于强化学习的动态公平联邦学习方法,其特征在于,所述方法包括以下步骤:
在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型;计算所述本地模型的本地训练损失;
各客户端将本地数据规模、所述本地模型以及所述本地训练损失上传至所述服务器,基于公平动态调整机制进行联邦聚合,得到初步全局联邦模型;
其中,所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间,根据状态按照策略选择相应的执行动作;计算各客户端的本地数据规模占比;根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重;
采用经验回放的方法对所述公平动态调整机制进行训练,根据所述初步全局联邦模型的准确率设置奖励值,以最大化奖励值为目标,优化所述公平动态调整机制;
基于上述步骤进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型。
在本发明的一些实施例中,计算所述本地模型的本地训练损失,计算式为:
其中,Fk(ωt+1)表示第t+1轮联邦训练得到的全局联邦模型ωt+1在客户端k的本地训练损失,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作。
在本发明的一些实施例中,所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间,计算式为:
St={F1(ωt),F2(ωt),...,Fm(ωt)};
其中,St表示第t轮联邦训练所述公平动态调整机制中强化学习状态空间;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
在本发明的一些实施例中,根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重,计算式为:
其中,Wk表示客户端k的聚合权重,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作;ωt表示第t轮联邦训练得到的全局联邦模型。
在本发明的一些实施例中,根据状态按照策略选择相应的执行动作,得到T步轨迹的概率,计算式为:
其中,P(τ|π)表示所述T步轨迹的概率;τ表示决策序列;π表示所述策略;ρ0表示初始状态分布;s0表示初始状态;P(st+1|st,at)表示智能体根据执行动作at从状态st转移到状态st+1的概率。
在本发明的一些实施例中,对所述公平动态调整机制进行训练,以找到最大化长期奖励期望的最佳策略,计算式为:
π*=argπmaxJ(π);
其中,
J(π)=∫τP(τ|π)R(τ)=Eτ~π[R(π)];
其中,π*表示所述最佳策略;π表示所述策略;J(π)表示长期奖励期望;τ表示决策序列;P(τ|π)表示所述T步轨迹的概率;R(τ)表示奖励函数。
在本发明的一些实施例中,在所述公平动态调整机制中,采用策略优化方式训练智能体,并利用梯度优化方式更新所述策略,计算式为:
其中,θ表示可学习的智能体参数;J(πθ)表示长期奖励期望;τ表示决策序列;π0表示初始策略;st表示状态;at表示执行动作;R(τ)表示奖励函数。
在本发明的一些实施例中,根据所述初步全局联邦模型的准确率设置奖励值,所述奖励值计算式为:
其中,rt-1表示t-1轮联邦训练的奖励值;at表示当前初步全局联邦模型ωt在测试集上的表现效果;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
在本发明的一些实施例中,计算所述本地模型的本地训练损失,还包括:
所述客户端选择一个批处理大小的本地数据对所述本地模型进行预测,构建预测结果和真实标签之间的损失函数,以得到所述本地训练损失。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中提及的任意一项所述方法的步骤。
本发明的有益效果至少是:
本发明提供一种基于强化学习的动态公平联邦学习方法及装置,在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型,并计算本地模型的本地训练损失;将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合;在聚合阶段,将本地训练损失作为强化学习状态输入,根据状态及当前策略选择执行动作,根据执行动作和本地规模占比计算聚合权重,基于聚合权重完成该轮联邦聚合;根据当前全局联邦模型准确率设置奖励值,以优化强化学习;重复多轮联邦训练,直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信计算开销的基础上,将全局联邦模型在参与计算地各个客户端的本地训练损失作为公平性度量,优化联邦聚合过程,实现公平联邦学习。进一步的,基于公平动态调整机制,将联邦学习中各客户端上的本地训练损失作为智能体状态,根据智能体的执行动作动态调整联邦聚合权重,解决联邦学习过程中公平性动态量化问题。进一步的,通过分析α-fairness公平度量方式和联邦学习的训练方式,降低参数对数据集的依赖,同时降低强化学习最优策略的成本,加速模型收敛。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中基于强化学习的动态公平联邦学习方法的步骤示意图。
图2为本发明一实施例中基于强化学习的动态公平联邦学习方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
这里需要强调的是,在下文中提及的各步骤标记并不是对各步骤先后顺序的限定,而应当理解为可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
为了解决现有技术由于不同客户端本地数据分布不均衡导致的收敛稳定性问题、在使用α-fairness公平量化指标时参数难以确定,依赖数据集和联邦环境,对调参有较高要求的问题、以及缺乏动态适应性的问题,本发明提供一种基于强化学习的动态公平联邦学习方法,如图1所示,该方法包括以下步骤S101~S104:
步骤S101:在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型;计算本地模型的本地训练损失。
步骤S102:各客户端将本地数据规模、本地模型以及本地训练损失上传至服务器,基于公平动态调整机制进行联邦聚合,得到初步全局联邦模型。
其中,公平动态调整机制将各客户端的本地训练损失作为强化学习的状态空间,根据状态按照策略选择相应的执行动作;计算各客户端的本地数据规模占比;根据本地数据规模占比和执行动作确定各客户端的聚合权重。
步骤S103:采用经验回放的方法对公平动态调整机制进行训练,根据初步全局联邦模型的准确值设置奖励值,最大化奖励值为目标,优化公平动态调整机制。
步骤S104:基于上述步骤进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型。
如图2所示,为基于强化学习的动态公平联邦学习方法的结构示意图,上侧为公平动态调整机制,下侧为联邦学习。
在步骤S101中,在任意一轮联邦训练中,服务器随机选择确定参与本次训练的客户端,将上一轮训练得到的初步全局联邦模型、训练参数广播至选择的各客户端。若为第一轮联邦训练,则将初始模型、初始参数广播至选择的各客户端。
各客户端基于本地数据构建用于训练的训练集,即,利用本地数据对服务器下发的模型进行训练,生成本地模型。
在一些实施例中,各客户端选择一个批处理大小的本地数据对本地模型进行预测,构建预测结果和真实标签之间的损失函数,以计算得到本地训练损失。同时在训练集上采用局部优化算法更新模型。其中,批处理大小(batchsize)是指每次从本地数据(训练集)中选择的样本数量。示例性的,将本地数据划分为多个较小的批次,并选择一个批处理大小来指定每个批次中的样本数量。在本发明中,批处理大小可根据计算资源、内存限制和模型性能等因素进行调整,在本发明中不作限定。
计算本地训练损失的方法包括以下步骤:
确定批处理大小,在本地数据中随机选择该数量的样本。
将样本输入到本地模型中进行前向传播,得到相应的预测结果。
将预测结果与实际标签进行比较,计算损失值,即构建预测结果和真实标签之间的损失函数。示例性的,损失函数可以采用均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-Entropy Loss)等。
根据损失值使用反向传播算法更新本地模型的参数,以便本地模型能够逐渐优化并减小损失。
在一些实施例中,本地模型的本地训练损失计算式如公式(1)所示:
其中,Fk(ωt+1)表示第t+1轮联邦训练得到的全局联邦模型ωt+1在客户端k的本地训练损失,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在公平动态调整机制中根据状态选择的执行动作。
在步骤S102中,各客户端将步骤S101中得到的本地模型、本地训练损失以及本地数据规模一同上传至服务器,以进行联邦聚合。
在本发明中,设计了基于强化学习的公平动态调整机制,将联邦学习中各个客户端上的本地训练损失作为智能体状态,根据智能体的输出动作动态调整联邦聚合权重,解决联邦学习过程中公平性动态量化问题。
在本发明中,通过结合联邦学习每轮通信更迭的情况以满足强化学习对状态、动作和奖励的设计要求,具体的:
状态:将各客户端的本地训练损失作为强化学习的状态空间:在第t轮联邦训练(通信)中,将基于全局联邦模型ωt计算得到的在客户端上的本地训练损失构建状态空间St,计算式如公式(2)所示:
St={F1(ωt),F2(ωt),…,Fm(ωt)}; (2)
其中,St表示第t轮联邦训练公平动态调整机制中强化学习状态空间;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
动作:在每一轮的联邦训练(通信)中,当状态发生更新后,智能体需要根据当前的状态选择相应的执行动作,即根据当前参与训练客户端计算得到的损失情况确定当前的执行动作,实现在联邦训练过程中动态评估聚合时各个参与计算客户端之间公平性。
奖励:奖励是用于平衡联邦学习过程中公平性和准确性,优化联邦全局模型达到最佳效果。在一些实施例中,奖励值的计算式如公式(3)所示:
其中,rt-1表示t-1轮联邦训练的奖励值;at表示当前初步全局联邦模型ωt在测试集上的表现效果,鼓励模型实现最佳和公平的性能;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
在本发明中,引入了基于α-faimess的参数敏感性策略。公式(3)中,at(表现效果)为全局联邦模型在客户端测试集上预测结果的准确率,将准确率作为均衡性度量,根据公平性量化修改联邦聚合时的权重,对本地更新时具有更大训练损失的客户端给予更多权重。
在构建强化学习框架的同时,根据上传的本地数据规模计算本地数据规模占比,得到传统联邦聚合权重。
在一些实施例中,本地数据规模占比计算式如公式(4)所示:
其中,pi表示客户端i的本地数据规模占比;Di和Dj分别表示客户端i和j的本地数据规模,i,j∈[1,m]。
根据本地数据规模占比和执行动作确定各客户端的聚合权重,计算式如公式(5)所示:
其中,Wk表示客户端k的聚合权重,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在公平动态调整机制中根据状态选择的执行动作;ωt表示第t轮联邦训练得到的全局联邦模型。
基于上述说明,在聚合阶段,利用公平动态调整机制调整各客户端的聚合权重,以实现联邦聚合,得到全局联邦模型。
在步骤S103中,本发明考虑到在联邦学习训练中,由于每轮随机选择一定比例的客户端参与更新,且需要考虑聚合时模型在各个客户端上的表现,因此最佳权重分布是不可微分的。将全局联邦模型中不同局部模型的权重分布问题建模为深度强化学习问题,以解决联邦聚合阶段考虑客户端准确性和公平性兼顾的问题。
强化学习与监督学习的不同之处在于不依赖标签给予的反馈信息,也不需要显式纠正次优操作。相反的,强化学习的重点是在探索未知领域和开发当前知识之间找到平衡。运行在服务器上的智能体根据状态(即各客户端回传的本地训练损失)以及当前策略选择相应的执行动作,可以得到T步轨迹的概率,计算式如公式(6)所示:
其中,P(τ|π)表示T步轨迹的概率;τ表示决策序列;π表示策略;ρ0表示初始状态分布;s0表示初始状态;P(st+1|st,at)表示智能体根据执行动作at从状态st转移到状态st+1的概率。
深度强化学习的目的是找到一个最大化长期奖励期望的最佳策略,计算式如公式(7)所示:
π*=argπmaxJ(π); (7)
其中,J(π)的计算式如公式(8)所示:
J(π)=∫τP(τ|π)R(τ)=Eτ~π[R(τ)]; (8)
公式(7)和公式(8)中,π*表示最佳策略;π表示策略;J(π)表示长期奖励期望;τ表示决策序列;P(τ|π)表示T步轨迹的概率;R(τ)表示奖励函数,用于评估智能体策略的优劣。
在一些实施例中,考虑到联邦学习训练过程中,每轮通信后需要更改状态,并需要依赖强化学习为各客户端下一轮联邦聚合设定权重,因此,采用策略优化方式训练智能体,并利用梯度优化方式更新策略,计算式如公式(9)所示:
其中,θ表示可学习的智能体参数;J(πθ)表示长期奖励期望;τ表示决策序列;π0表示初始策略;st表示状态;at表示执行动作;R(τ)表示奖励函数。
在步骤S104中,基于步骤S101~S103(即一轮联邦训练的步骤),进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型。
基于上述说明,在强化联邦训练过程中,服务器负责选择客户端参与联邦学习的训练和维护强化学习智能体策略的优化,以实现公平聚合。基于强化学习的公平动态调整机制利用当前全局联邦模型在各个客户端上的本地训练损失情况构建状态空间,根据当前的最优策略选择相应的执行动作,基于本地数据规模占比和执行动作确定联邦聚合时各个客户端模型的权重,实现对有高损失的客户端赋予更大的惩罚,调整传统联邦聚合中因数据规模较小而在聚合阶段占比值较小的情况。客户端根据本地数据对全局联邦模型进行更新,并利用全局联邦模型在本地数据上的表现效果(准确率)为服务器对公平性度量提供依据。
本发明提供的基于强化学习的动态公平联邦学习方法适用于多种应用场景,下面结合一具体实施例,对本发明作进一步说明。
该具体实施例提供一种公共安全突发事件检测方法,包括以下步骤:
获取待检测数据,该待检测数据中包含有社交平台上关于公共安全突发事件的文本信息。
将待检测数据输入基于本发明提供的基于强化学习的动态公平联邦学习方法训练得到的公共安全突发事件检测模型中,得到待检测数据中各文本信息相对应的公共安全突发事件,实现分类。
其中,公共安全突发事件检测模型的训练方法包括以下步骤:
在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型,并计算本地模型的本地训练损失。其中。本地数据包括设有实际标签的各社交平台上关于公共安全突发事件的文本信息,保证了各平台数据的隐私性。
各客户端将本地数据规模、本地模型以及本地训练损失上传至服务器,基于公平动态调整机制进行联邦聚合,得到初步全局联邦模型。
按照上文所述的训练方法对公平动态调整机制中的强化学习进行训练优化;并进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型,将最终全局联邦模型作为公共安全突发事件检测模型。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于强化学习的动态公平联邦学习方法的步骤。
与上述方法相应地,本发明还提供了一种设备,该设备包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明提供一种基于强化学习的动态公平联邦学习方法及装置,在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型,并计算本地模型的本地训练损失;将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合;在聚合阶段,将本地训练损失作为强化学习状态输入,根据状态及当前策略选择执行动作,根据执行动作和本地规模占比计算聚合权重,基于聚合权重完成该轮联邦聚合;根据当前全局联邦模型准确率设置奖励值,以优化强化学习;重复多轮联邦训练,直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信计算开销的基础上,将全局联邦模型在参与计算地各个客户端的本地训练损失作为公平性度量,优化联邦聚合过程,实现公平联邦学习。进一步的,基于公平动态调整机制,将联邦学习中各客户端上的本地训练损失作为智能体状态,根据智能体的执行动作动态调整联邦聚合权重,解决联邦学习过程中公平性动态量化问题。进一步的,通过分析α-fairness公平度量方式和联邦学习的训练方式,降低参数对数据集的依赖,同时降低强化学习最优策略的成本,加速模型收敛。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于强化学习的动态公平联邦学习方法,其特征在于,所述方法包括以下步骤:
在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型;计算所述本地模型的本地训练损失;
各客户端将本地数据规模、所述本地模型以及所述本地训练损失上传至所述服务器,基于公平动态调整机制进行联邦聚合,得到初步全局联邦模型;
其中,所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间,根据状态按照策略选择相应的执行动作;计算各客户端的本地数据规模占比;根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重;
采用经验回放的方法对所述公平动态调整机制进行训练,根据所述初步全局联邦模型的准确率设置奖励值,以最大化奖励值为目标,优化所述公平动态调整机制;
基于上述步骤进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型。
2.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,计算所述本地模型的本地训练损失,计算式为:
其中,Fk(ωt+1)表示第t+1轮联邦训练得到的全局联邦模型ωt+1在客户端k的本地训练损失,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作。
3.根据权利要求2所述的基于强化学习的动态公平联邦学习方法,其特征在于,所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间,计算式为:
St={F1(ωt),F2(ωt),...,Fm(ωt)};
其中,St表示第t轮联邦训练所述公平动态调整机制中强化学习状态空间;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
4.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重,计算式为:
其中,Wk表示客户端k的聚合权重,k∈[1,m];pk表示客户端k的本地数据规模占比;qt-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作;ωt表示第t轮联邦训练得到的全局联邦模型。
5.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,根据状态按照策略选择相应的执行动作,得到T步轨迹的概率,计算式为:
其中,P(τ|π)表示所述T步轨迹的概率;τ表示决策序列;π表示所述策略;ρ0表示初始状态分布;s0表示初始状态;P(st+1|st,at)表示智能体根据执行动作at从状态st转移到状态st+1的概率。
6.根据权利要求5所述的基于强化学习的动态公平联邦学习方法,其特征在于,对所述公平动态调整机制进行训练,以找到最大化长期奖励期望的最佳策略,计算式为:
π*=argπmaxJ(π);
其中,
J(π)=∫τP(τ|π)R(τ)=Eτ~π[R(τ)];
其中,π*表示所述最佳策略;π表示所述策略;J(π)表示长期奖励期望;τ表示决策序列;P(τ|π)表示所述T步轨迹的概率;R(τ)表示奖励函数。
7.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,在所述公平动态调整机制中,采用策略优化方式训练智能体,并利用梯度优化方式更新所述策略,计算式为:
其中,θ表示可学习的智能体参数;J(πθ)表示长期奖励期望;τ表示决策序列;π0表示初始策略;st表示状态;at表示执行动作;R(τ)表示奖励函数。
8.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,根据所述初步全局联邦模型的准确率设置奖励值,所述奖励值计算式为:
其中,rt-1表示t-1轮联邦训练的奖励值;at表示当前初步全局联邦模型ωt在测试集上的表现效果;Fm(ωt)表示第t轮联邦训练得到的全局联邦模型ωt在客户端m的本地训练损失。
9.根据权利要求1所述的基于强化学习的动态公平联邦学习方法,其特征在于,计算所述本地模型的本地训练损失,还包括:
所述客户端选择一个批处理大小的本地数据对所述本地模型进行预测,构建预测结果和真实标签之间的损失函数,以得到所述本地训练损失。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076328.7A CN117273119B (zh) | 2023-08-24 | 2023-08-24 | 一种基于强化学习的动态公平联邦学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076328.7A CN117273119B (zh) | 2023-08-24 | 2023-08-24 | 一种基于强化学习的动态公平联邦学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117273119A true CN117273119A (zh) | 2023-12-22 |
CN117273119B CN117273119B (zh) | 2024-09-13 |
Family
ID=89201696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311076328.7A Active CN117273119B (zh) | 2023-08-24 | 2023-08-24 | 一种基于强化学习的动态公平联邦学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273119B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118018426A (zh) * | 2024-01-24 | 2024-05-10 | 中科链安(南京)科技有限公司 | 一种网络异常入侵检测模型训练方法、检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021083276A1 (zh) * | 2019-10-29 | 2021-05-06 | 深圳前海微众银行股份有限公司 | 横向联邦和纵向联邦联合方法、装置、设备及介质 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
CN116320620A (zh) * | 2023-04-04 | 2023-06-23 | 南京大学 | 基于个性化联邦强化学习的流媒体比特率自适应调整方法 |
CN116416508A (zh) * | 2023-03-17 | 2023-07-11 | 西安电子科技大学广州研究院 | 一种加快全局联邦学习模型收敛的方法及联邦学习系统 |
CN116523079A (zh) * | 2023-03-10 | 2023-08-01 | 华南理工大学 | 一种基于强化学习联邦学习优化方法及系统 |
CN116541779A (zh) * | 2023-07-07 | 2023-08-04 | 北京邮电大学 | 个性化公共安全突发事件检测模型训练方法、检测方法及装置 |
-
2023
- 2023-08-24 CN CN202311076328.7A patent/CN117273119B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021083276A1 (zh) * | 2019-10-29 | 2021-05-06 | 深圳前海微众银行股份有限公司 | 横向联邦和纵向联邦联合方法、装置、设备及介质 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
CN116523079A (zh) * | 2023-03-10 | 2023-08-01 | 华南理工大学 | 一种基于强化学习联邦学习优化方法及系统 |
CN116416508A (zh) * | 2023-03-17 | 2023-07-11 | 西安电子科技大学广州研究院 | 一种加快全局联邦学习模型收敛的方法及联邦学习系统 |
CN116320620A (zh) * | 2023-04-04 | 2023-06-23 | 南京大学 | 基于个性化联邦强化学习的流媒体比特率自适应调整方法 |
CN116541779A (zh) * | 2023-07-07 | 2023-08-04 | 北京邮电大学 | 个性化公共安全突发事件检测模型训练方法、检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
PEIYING ZHANG ET AL.: "Deep Reinforcement Learning Assisted Federated Learning Algorithm for Data Management of IIoT", IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, vol. 17, no. 12, 8 March 2021 (2021-03-08), pages 8475 - 8484, XP011873971, DOI: 10.1109/TII.2021.3064351 * |
李从: "多模型联邦学习的资源优化分配", 中国优秀硕士学位论文全文数据库 信息科技辑, vol. 2023, no. 07, 15 July 2023 (2023-07-15), pages 140 - 24 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118018426A (zh) * | 2024-01-24 | 2024-05-10 | 中科链安(南京)科技有限公司 | 一种网络异常入侵检测模型训练方法、检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117273119B (zh) | 2024-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754000B (zh) | 质量感知的边缘智能联邦学习方法及系统 | |
CN110490335A (zh) | 一种计算参与者贡献率的方法及装置 | |
CN110610242A (zh) | 一种联邦学习中参与者权重的设置方法及装置 | |
CN117273119B (zh) | 一种基于强化学习的动态公平联邦学习方法及装置 | |
CN112364994B (zh) | 基于mmd和tsp的频域载荷识别的模型迁移学习源域选择方法 | |
Tang et al. | Credit and quality intelligent learning based multi-armed bandit scheme for unknown worker selection in multimedia MCS | |
CN116306910B (zh) | 一种基于联邦节点贡献的公平性隐私计算方法 | |
CN115115389A (zh) | 一种基于价值细分和集成预测的快递客户流失预测方法 | |
CN115238905A (zh) | 敏感场景下可提升系统公平性的横向联邦学习训练方法 | |
CN116582568A (zh) | 工业物联网中时效性感知的联邦学习参与设备激励方法 | |
CN116192852A (zh) | 一种端边云多级联邦学习知识传输方法及装置 | |
CN110310199B (zh) | 借贷风险预测模型的构建方法、系统及借贷风险预测方法 | |
CN116700931A (zh) | 多目标边缘任务调度方法、装置、设备、介质及产品 | |
Peng et al. | Truth based three-tier Combinatorial Multi-Armed Bandit ecosystems for mobile crowdsensing | |
CN111510473B (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
López-Martín et al. | Support vector regression for predicting the productivity of higher education graduate students from individually developed software projects | |
CN111030764B (zh) | 一种基于随机博弈在线学习的众包用户信息年龄管理方法 | |
Jiang et al. | Research on incentive mechanisms for anti-heterogeneous federated learning based on reputation and contribution | |
CN114692888A (zh) | 系统参数处理方法、装置、设备及存储介质 | |
KR100922365B1 (ko) | 난이도별 문항을 제공하는 학습 시스템에서 문항 난이도갱신 방법 및 실시간 난이도 갱신 기능을 갖는 난이도별문항 제공 학습시스템 | |
Chang et al. | Efficient federated learning via adaptive model pruning for internet of vehicles with a constrained latency | |
CN111369091A (zh) | 用户感知画像分析的方法、装置、设备和介质 | |
CN110942323A (zh) | 一种评估模型构建方法、装置及系统 | |
Parra et al. | Deep learning prediction intervals based on selective joint supervision | |
CN118917379A (zh) | 一种针对多塔神经网络的模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |