CN116861239A - 一种联邦学习方法和系统 - Google Patents
一种联邦学习方法和系统 Download PDFInfo
- Publication number
- CN116861239A CN116861239A CN202310840523.6A CN202310840523A CN116861239A CN 116861239 A CN116861239 A CN 116861239A CN 202310840523 A CN202310840523 A CN 202310840523A CN 116861239 A CN116861239 A CN 116861239A
- Authority
- CN
- China
- Prior art keywords
- federal learning
- gradient
- strategy
- model
- weighted aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004220 aggregation Methods 0.000 claims abstract description 98
- 230000002776 aggregation Effects 0.000 claims abstract description 97
- 230000002787 reinforcement Effects 0.000 claims abstract description 38
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000001303 quality assessment method Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000013441 quality evaluation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000003094 perturbing effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007123 defense Effects 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 description 10
- 231100000331 toxic Toxicity 0.000 description 7
- 230000002588 toxic effect Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种联邦学习方法和系统,联邦学习服务器向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。本发明的目的在于抵御联邦学习中包括定制拜占庭攻击在内的多种拜占庭攻击,同时实现对于诚实但好奇的服务器的隐私推断攻击的防御,从而实现安全隐私的联邦学习。
Description
技术领域
本发明属于机器学习安全领域,具体涉及一种联邦学习方法和系统。
背景技术
联邦学习是一种新兴的协作机器学习范式,旨在解决数据孤岛问题,同时保护参与者本地数据的隐私。具有各种设备(例如,物联网设备、智能手机、无人车辆、无人机或高性能计算集群)的参与者共同训练全局模型,而不与中央服务器共享其本地数据。然而,受到攻击者控制的参与者可能会通过上传恶意更新来执行拜占庭攻击,这种攻击会阻止全局模型的正常收敛,并降低模型的性能;同时,诚实但好奇的服务器可能会诚实地执行联邦学习过程的步骤,但是对参与者的私人数据感到好奇,并试图推断敏感信息。
近年来,安全多方计算技术和可信计算环境被用来实现隐私拜占庭鲁棒联邦学习。然而,(1)安全多方计算技术和可信计算环境通常使用基于统计的拜占庭鲁棒方案,这些方案仍然可能被精心构造的拜占庭攻击成功攻击,降低全局模型的准确率,隐私拜占庭鲁棒联邦学习方案仍需要实现对定制的拜占庭攻击的有效防御。(2)可信计算环境存在硬件瓶颈,现有的可信计算环境通常内存有限,无法在参数众多、结构复杂的神经网络上实现可信计算。
发明内容
针对现有技术中存在的问题,本发明提供了一种联邦学习方法和系统,其目的在于抵御联邦学习中包括定制拜占庭攻击在内的多种拜占庭攻击,同时实现对于诚实但好奇的服务器的隐私推断攻击的防御,从而实现安全隐私的联邦学习。
为了解决上述技术问题,本发明通过以下技术方案予以实现:
一种联邦学习方法,包括:
联邦学习服务器向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;
联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;其中,所述扰动模型参数更新具体为:每个联邦学习参与者利用本地数据对本地模型进行训练得到模型参数更新,利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,将隐私扰动添加在训练得到的模型参数更新上,即得到所述扰动模型参数更新;
联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。
进一步地,所述通过深度强化学习生成梯度加权聚合策略的步骤,包括:
将联邦学习服务器利用深度强化学习对梯度加权聚合策略的生成流程定义为一个马尔科夫决策流程,具体对应关系为:
马尔可夫状态空间其中,深度强化学习智能体状态St为:/>lr为全局模型在标准验证集的损失,/>为当前梯度加权聚合策略,/>为辅助信息,下标t为第t轮通信轮次;
马尔可夫动作空间动作a为一个n维向量,n是联邦学习参与者的数量,动作a表示深度强化学习智能体在每个状态下可能采取的行为,能够通过标准化转化为梯度加权聚合策略;
奖励函数R,奖励函数R为深度强化学习智能体在每个状态下采取动作后获得的即时回报,反映了深度强化学习智能体状态的改变并为梯度加权聚合策略更新方向提供启发,第t轮奖励rt设置为:
式中,lr(*)为损失函数,θ′g为当前全局模型,θg为上轮全局模型,为当前最优全局模型;
马尔可夫初始状态分布P(S1),具体为:
初始化策略为一个n维向量[w1,w2,…,wn],其中w1=w2=…=wn且w1+w2+…+wn=1,w表示每个联邦学习参与者聚合时对应的权值;
状态转移概率:P(St+1|St,at),表示深度强化学习智能体在当前状态下采取某个动作后,状态转移的概率;
随后利用深度确定性策略梯度算法,实现深度确定性策略梯度构件,依赖深度确定性策略梯度神经网络进行强化学习;
以更新后全局模型在标准验证集的损失、当前梯度加权聚合策略以及辅助信息作为深度强化学习算法输入,生成下一轮梯度加权聚合策略。
进一步地,所述利用深度确定性策略梯度算法,实现深度确定性策略梯度构件,依赖深度确定性策略梯度神经网络进行强化学习的步骤,包括:
进行两个阶段的深度确定性策略梯度算法来进行强化学习,具体为:
第一阶段为预热阶段,填充经验回放池并训练深度确定性策略梯度神经网络:利用探索噪声以及决策网络生成动作,观察得到奖励和下一阶段状态,存储在经验回放池中,达到具体阈值,进入下一阶段;
第二阶段为预测阶段,通过决策网络输出具体的动作,并将动作标准化得到聚合策略;
在预测阶段的每个通信轮次,对经验回放池进行采样训练深度确定性策略梯度神经网络。
进一步地,所述利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,具体为:
每个联邦学习参与者对一个常数项为0的n-1阶多项式f(x)达成共识:
f(x)=c1xn-1+c2xn-2+…+cn-2x2+cn-1x;
每个联邦学习参与者i根据梯度加权聚合策略中自身对应的权值wi,选取一个秘密参数si满足:
每个联邦学习参与者i向其他参与者广播秘密参数si,根据拉格朗日插值方法,每个联邦学习参与者构建一个拉格朗日基本多项式pi(x):
式中,是联邦学习参与者序号的集合;
pi(0)即生成的隐私扰动:
进一步地,所述将隐私扰动添加在训练得到的模型参数更新上,具体为:
每个联邦学习参与者i根据全局模型θg构建本地模型θl,使用随机梯度下降算法在本地数据上进行训练,并计算模型参数更新Δθi:
Δθi=θg-θl
每个联邦学习参与者i通过将隐私扰动pi添加在模型参数更新Δθi上,得到扰动模型参数更新Δθ′i:
Δθ′i=Δθi+pi。
进一步地,所述联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型的步骤,包括:
联邦学习服务器根据梯度加权聚合策略,使用线性加权聚合方案计算加权聚合后的模型参数更新Δθ,具体为:
加权聚合后的模型参数更新Δθ被用来更新全局模型θg,得到更新后全局模型θ′g:
θ′g=θg+αgΔθ
其中,αg为全局学习率。
进一步地,所述联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估的步骤,包括:
联邦学习服务器通过将更新后的全局模型θ′g在自身标准验证集上进行测试,并根据测试所得到的测试损失为依据对更新后的全局模型进行质量评估,全局模型在标准验证集的损失lr计算的方式具体为:
其中,(xi,yi)为标准验证集上的测试样本,N为标准验证集中测试样本数量。
一种联邦学习系统,包括联邦学习服务器;
所述联邦学习服务器被配置为向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;
所述联邦学习服务器还被配置为利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;其中,所述扰动模型参数更新具体为:每个联邦学习参与者利用本地数据对本地模型进行训练得到模型参数更新,利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,将隐私扰动添加在训练得到的模型参数更新上,即得到所述扰动模型参数更新;
所述联邦学习服务器还被配置为根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。
与现有技术相比,本发明至少具有以下有益效果:
(1)本发明利用深度强化学习机制来实现对联邦学习参与者的模型性能进行评价,在不涉及原始上传模型更新和对原始模型更新的指标计算下,解决了现有的扰动后的模型更新的难以评估的技术问题。
(2)本发明基于拉格朗日插值设计了隐私保护梯度聚合算法,解决了赋权引发的扰动难以消除的问题。通过对本地模型更新进行扰动添加并且在梯度加权聚合后消除扰动,保证了用户隐私不受诚实但好奇的服务器侵犯,确保了联邦学习拜占庭鲁棒聚合流程中用户数据的机密性。
(3)本发明提出了基于深度确定性策略梯度网络的拜占庭鲁棒聚合方法,通过深度确定性策略梯度网络输出加权鲁棒聚合策略,即便在参与者的数据分布是非独立同分布的前提下,能够有效地抵御多种拜占庭攻击,包括高斯随机攻击、本地模型下毒攻击、最优模型下毒攻击、自适应模型下毒攻击等,有效的提高了联邦学习的鲁棒性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种联邦学习方法的流程图;
图2为本发明实施例一种联邦学习方法流程图;
图3为深度确定性策略梯度网络模型图;
图4为基于深度确定性策略梯度网络隐私拜占庭鲁棒联邦学习工作流图;
图5为拉格朗日插值隐私扰动安全聚合算法流程图;
图6为基于深度确定性策略梯度网络的拜占庭鲁棒聚合方法流程图;
图7、图8和图9均为仿真结果展示图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1所示,本发明实施例一种联邦学习方法,包括:
联邦学习服务器向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;
联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;其中,所述扰动模型参数更新具体为:每个联邦学习参与者利用本地数据对本地模型进行训练得到模型参数更新,利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,将隐私扰动添加在训练得到的模型参数更新上,即得到所述扰动模型参数更新;
联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。
需要说明的是,自身标准验证集为服务器所有的具有目标任务输入空间的标准数据分布的一定大小的数据集,用于针对更新后的全局模型进行质量评估。
在一实施例中,如图2所示,一种联邦学习方法,具体包括以下步骤:
步骤1、基于深度确定性策略梯度的策略更新设计,以更新聚合策略,增强联邦学习鲁棒性。
作为优选的实施方式,基于深度确定性策略梯度的策略更新设计,具体包括:
步骤1.1、通过结合拜占庭鲁棒联邦学习具体环境设计强化学习中的状态、动作和奖励函数要素;
具体地说,状态、动作以及奖励函数具体为:
状态其中lr为更新后全局模型在标准验证集的损失、/>为当前梯度加权聚合策略、/>为辅助信息,下标t为第t轮通信轮次,状态空间为/>需要说明的是,辅助信息为参与者的历史评分、任务倾向、地理位置等;
动作a为一个动作空间中的n维向量,n是联邦学习参与者的数量,动作a的每一维反映了对应联邦学习参与者的拜占庭分数值,动作a能够通过标准化转化为梯度加权聚合策略/>
奖励函数R,奖励函数R反映了深度强化学习智能体状态的改变并为梯度加权聚合策略更新方向提供启发,具体t轮奖励rt如下:
式中,lr(*)为损失函数,θ′g为当前全局模型,θg为上轮全局模型,为当前最优全局模型;
步骤1.2、根据深度确定性策略梯度策略更新算法,实现深度确定性策略梯度构件,依赖深度确定性策略梯度神经网络进行强化学习;
具体地说,本发明中深度确定性策略梯度构件,具体为:
首先,如图3所示,本发明中深度确定性策略梯度构件包括经验回放池决策网络μ(S|θμ)、目标决策网络/>评估网络Q(S,a|θQ)、目标评估网络/>以及噪声生成器;
本发明所述深度确定性策略梯度算法可分为两阶段,具体为:
第一阶段为预热阶段,填充经验回放池并训练深度确定性策略梯度神经网络:
首先利用探索噪声以及决策网络生成动作,具体为: 为噪声生成器生成的探索噪声;
根据奖励函数R以及系统状态转移概率分布P(St+1|St,at)观察得到奖励rt与状态St+1;
构成转变元组T,具体为:T=(St,at,rt,St+1),并存储在经验回放池中;
当经验回放池的大小超过一个具体的阈值,进入下一个阶段。
第二阶段为预测阶段,通过决策网络输出具体的动作,不包含探索噪声:
利用决策网络生成动作,at=μ(St|θμ);
根据奖励函数R以及系统状态转移概率分布P(St+1|St,at)观察得到奖励rt与状态St+1;
构成转变元组T,并存储在经验回放池中;
利用生成动作at标准化得到聚合策略:
步骤2、用户(联邦学习参与者)基于拉格朗日插值扰动生成算法,根据当前梯度加权聚合策略生成隐私扰动,在本地模型参数更新上添加隐私扰动,并将掩蔽后参数更新上传至联邦学习服务器。
本发明中的联邦学习框架和传统的联邦学习框架类似,存在一个中心联邦学习服务器以及多个联邦学习用户(参与者);
联邦学习服务器负责全局模型和深度确定性策略梯度构件的初始化、在每个通信轮次中全局模型的分发广播以及每轮用户更新的聚合,其根据聚合后的结果对全局模型进行更新;同时,联邦学习服务器也需要对更新后的全局模型进行质量评估,将对应损失输入深度确定性策略梯度构件,根据输出结果更新聚合策略,同时实现深度确定性策略梯度构件内部神经网络的更新。
对于每个用户i,其拥有一个本地隐私数据集并且具备一定的计算和存储能力。对于每个用户,由服务器制定本地训练优化算法(如随机梯度下降等)、学习率、本地训练轮次等超参数。
如图4所示,在每个全局通信轮次中,联邦学习服务器首先将全局模型θg广播给联邦学习用户,每个用户在接收到全局模型θg之后,利用本地数据对全局模型θg根据制定优化算法、学习率等超参数进行训练,并得到原始模型参数更新Δθ。具体地,本地原始模型参数更新Δθ如下:
参与者根据当前通信轮次全局模型θg构建本地模型θl,使用随机梯度下降算法在本地数据上进行训练,直到训练次数达到联邦学习服务器指定的本地训练轮次,并计算原始模型参数更新Δθ;
其中J为损失函数,α为学习率。
原始模型参数更新可通过如下公式计算:
Δθ=θ′l-θg
作为优选的实施方式,根据当前聚合策略生成拉格朗日插值扰动,具体为:
如图5所示,每个参与者从服务器接收聚合策略参与者对一个常数项为0的n-1阶多项式f(x)达成共识:
f(x)=c1xn-1+c2xn-2+…+cn-2x2+cn-1x;
每个参与者i根据聚合策略中自身对应的权值wi选取一个秘密参数si满足:
每个参与者i向其他参与者广播秘密参数si,根据拉格朗日插值,每个参与者可以构建一个拉格朗日基本多项式pi(x):
是参与者序号的集合;
pi(0)即目标生成的隐私扰动:
作为优选的实施方式,每个参与者i通过将扰动pi添加在原始模型参数更新Δθi上并且得到扰动模型参数更新Δθ′i:
Δθ′i=Δθi+pi
随后,每个参与者i将掩蔽后的更新Δθ′i上传至联邦学习服务器,由服务器完成聚合,完成一轮本地训练,并等待下一轮训练的开始。
步骤3、如图4与图6所示,联邦学习服务器对接收的掩蔽后模型参数更新根据聚合策略进行聚合,并在标准验证集上进行质量评估得到对应损失,对应损失作为深度确定性策略梯度构件的输入,对聚合策略进行更新,并进行强化学习内部网络更新,完成一轮通信。
作为优选的实施方式,联邦学习服务器利用梯度加权聚合策略对扰动后的更新进行加权聚合,利用聚合更新全局模型,具体为:
联邦学习服务器根据梯度加权聚合策略使用线性加权聚合方案计算聚合后更新Δθ:
在这个聚合过程中,参与者添加的扰动被清除,最终的聚合后更新不含扰动。根据拉格朗日插值的性质可得:
聚合后的更新Δθ被用来更新全局模型θg:
θ′g=θg+αgΔθ
其中,αg为全局学习率。
作为优选的实施方式,联邦学习服务器根据自身标准验证集对更新后全局模型质量进行评估,具体如下:
联邦学习服务器通过将更新后全局模型θ′g在自身标准验证集上进行损失计算:
联邦学习服务器将该损失作为全局模型质量评估依据输入到深度确定性策略梯度构件中。随后深度确定性策略梯度构件通过该损失与当前记录的最优损失进行比较,更新最优损失并计算奖励函数,将奖励和观察到的状态及状态变化结合为转变元组,放入经验回放池中。同时,损失同样作为深度确定性策略梯度构建输入的一部分,决定了下一轮的聚合策略。
作为优选的实施方式,联邦学习服务器对聚合策略进行更新,具体如下:
将损失lr,旧策略以及辅助信息/>组合成状态S,并将状态S作为深度确定性策略梯度构件的输入。
随后,深度确定性策略梯度构件输出新的聚合策略
作为优选的实施方式,联邦学习服务器对强化学习内部网络更新,具体如下:
在预测阶段的每个通信轮次,利用经验回放池中元组数据训练深度确定性策略梯度神经网络,具体为:
随机从经验回放池中采样一个大小为N的mini-batch的转变元组集合(Si,ai,ri,Si+1);
利用目标评估网络计算目标Q值vi:
计算Q值与目标Q值的损失用以更新评估网络:
通过策略梯度算法,计算策略梯度来更新决策网络:
通过软更新对目标决策网络θμ′和目标评估网络θQ′进行更新,软更新学习率τ为0.001:
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
下面结合仿真案例对本发明进行更加详细的说明。
该仿真案例模拟了一个标准的联邦学习形式,存在1个云服务器和20个参与者,其中恶意参数者的数量设置为5,其他15个参与者为诚实参与者,恶意参与者的数量为25%。该仿真案例实现了CIFAR10分类任务和Fashion-MNIST,并利用5层深度神经网络实现了具体分类。恶意参与者可能采用高斯随机攻击、本地模型下毒攻击、最优模型下毒攻击等现有的最新攻击方法针对联邦学习流程进行攻击。采用多种拜占庭防御方案被用以比较,从而证明本发明的防御性能,具体结果如下:
仿真结果图7展示了拜占庭参与者采用高斯随机攻击在CIFAR10数据分类任务上,无防御、Krum防御方案与本发明防御方案分别对应的模型准确率收敛曲线,该仿真结果证明了本发明的方案针对高斯随机攻击可以取得有效的防御,并相比于Krum防御方案具有更好的性能。
仿真结果图8展示了拜占庭参与者分别采取本地模型下毒攻击、最优模型下毒攻击针对CIFAR10数据分类任务,Krum方案与本发明方案所对应的模型准确率收敛曲线。该仿真结果证明了本发明的方案相比Krum方案针对现有的最先进的拜占庭攻击仍然能有效的防御。
仿真结果图9展示了在Non-IID数据分布下,拜占庭参与者利用本地模型下毒攻击针对Fashion-MNIST数据分类任务,本发明方案与Krum、FLTrust、Median、Trimmed-mean等方案的对比防御结果。该仿真结果证明了本发明方案能够更有效地处理Non-IID问题,能有效的提升联邦学习的拜占庭鲁棒性。
此外,Krum等防御方案不能够保证在训练过程中的参与者隐私不受服务器侵犯,而本发明提出的方案通过添加扰动的形式在训练过程中保证了参与者的隐私,因此本发明相比于其他方案能够取得更有效的性能。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种联邦学习方法,其特征在于,包括:
联邦学习服务器向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;
联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;其中,所述扰动模型参数更新具体为:每个联邦学习参与者利用本地数据对本地模型进行训练得到模型参数更新,利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,将隐私扰动添加在训练得到的模型参数更新上,即得到所述扰动模型参数更新;
联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。
2.根据权利要求1所述的一种联邦学习方法,其特征在于,所述通过深度强化学习生成梯度加权聚合策略的步骤,包括:
将联邦学习服务器利用深度强化学习对梯度加权聚合策略的生成流程定义为一个马尔科夫决策流程,具体对应关系为:
马尔可夫状态空间其中,深度强化学习智能体状态St为:/>lr为全局模型在标准验证集的损失,/>为当前梯度加权聚合策略,/>为辅助信息,下标t为第t轮通信轮次;
马尔可夫动作空间动作a为一个n维向量,n是联邦学习参与者的数量,动作a表示深度强化学习智能体在每个状态下可能采取的行为,能够通过标准化转化为梯度加权聚合策略;
奖励函数R,奖励函数R为深度强化学习智能体在每个状态下采取动作后获得的即时回报,反映了深度强化学习智能体状态的改变并为梯度加权聚合策略更新方向提供启发,第t轮奖励rt设置为:
式中,lr(*)为损失函数,θ′g为当前全局模型,θg为上轮全局模型,为当前最优全局模型;
马尔可夫初始状态分布P(S1),具体为:
初始化策略为一个n维向量[w1,w2,…,wn],其中w1=w2=…=wn且w1+w2+…+wn=1,w表示每个联邦学习参与者聚合时对应的权值;
状态转移概率:P(St+1|St,at),表示深度强化学习智能体在当前状态下采取某个动作后,状态转移的概率;
随后利用深度确定性策略梯度算法,实现深度确定性策略梯度构件,依赖深度确定性策略梯度神经网络进行强化学习;
以更新后全局模型在标准验证集的损失、当前梯度加权聚合策略以及辅助信息作为深度强化学习算法输入,生成下一轮梯度加权聚合策略。
3.根据权利要求2所述的一种联邦学习方法,其特征在于,所述利用深度确定性策略梯度算法,实现深度确定性策略梯度构件,依赖深度确定性策略梯度神经网络进行强化学习的步骤,包括:
进行两个阶段的深度确定性策略梯度算法来进行强化学习,具体为:
第一阶段为预热阶段,填充经验回放池并训练深度确定性策略梯度神经网络:利用探索噪声以及决策网络生成动作,观察得到奖励和下一阶段状态,存储在经验回放池中,达到具体阈值,进入下一阶段;
第二阶段为预测阶段,通过决策网络输出具体的动作,并将动作标准化得到聚合策略;
在预测阶段的每个通信轮次,对经验回放池进行采样训练深度确定性策略梯度神经网络。
4.根据权利要求3所述的一种联邦学习方法,其特征在于,所述利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,具体为:
每个联邦学习参与者对一个常数项为0的n-1阶多项式f(x)达成共识:
f(x)=c1xn-1+c2xn-2+…+cn-2x2+cn-1x;
每个联邦学习参与者i根据梯度加权聚合策略中自身对应的权值wi,选取一个秘密参数si满足:
每个联邦学习参与者i向其他参与者广播秘密参数si,根据拉格朗日插值方法,每个联邦学习参与者构建一个拉格朗日基本多项式pi(x):
式中,是联邦学习参与者序号的集合;
pi(0)即生成的隐私扰动:
5.根据权利要求4所述的一种联邦学习方法,其特征在于,所述将隐私扰动添加在训练得到的模型参数更新上,具体为:
每个联邦学习参与者i根据全局模型θg构建本地模型θl,使用随机梯度下降算法在本地数据上进行训练,并计算模型参数更新Δθi:
Δθi=θg-θl
每个联邦学习参与者i通过将隐私扰动pi添加在模型参数更新Δθi上,得到扰动模型参数更新Δθ′i:
Δθ′i=Δθi+pi。
6.根据权利要求5所述的一种联邦学习方法,其特征在于,所述联邦学习服务器利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型的步骤,包括:
联邦学习服务器根据梯度加权聚合策略,使用线性加权聚合方案计算加权聚合后的模型参数更新Δθ,具体为:
加权聚合后的模型参数更新Δθ被用来更新全局模型θg,得到更新后全局模型θ′g:
θ′g=θg+αgΔθ
其中,αg为全局学习率。
7.根据权利要求6所述的一种联邦学习方法,其特征在于,所述联邦学习服务器根据自身标准验证集对更新后的全局模型进行质量评估的步骤,包括:
联邦学习服务器通过将更新后的全局模型θ′g在自身标准验证集上进行测试,并根据测试所得到的测试损失为依据对更新后的全局模型进行质量评估,全局模型在标准验证集的损失lr计算的方式具体为:
其中,(xi,yi)为标准验证集上的测试样本,N为标准验证集中测试样本数量。
8.一种联邦学习系统,其特征在于,包括联邦学习服务器;
所述联邦学习服务器被配置为向所有联邦学习参与者发送具有拜占庭鲁棒性质的梯度加权聚合策略;其中,所述梯度加权聚合策略是通过深度强化学习生成的;
所述联邦学习服务器还被配置为利用梯度加权聚合策略对扰动模型参数更新进行加权聚合,利用加权聚合后的模型参数更新全局模型;其中,所述扰动模型参数更新具体为:每个联邦学习参与者利用本地数据对本地模型进行训练得到模型参数更新,利用拉格朗日插值方法,根据接收的梯度加权聚合策略生成隐私扰动,将隐私扰动添加在训练得到的模型参数更新上,即得到所述扰动模型参数更新;
所述联邦学习服务器还被配置为根据自身标准验证集对更新后的全局模型进行质量评估,基于评估结果,利用深度强化学习输出下一轮次的梯度加权聚合策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840523.6A CN116861239A (zh) | 2023-07-10 | 2023-07-10 | 一种联邦学习方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840523.6A CN116861239A (zh) | 2023-07-10 | 2023-07-10 | 一种联邦学习方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861239A true CN116861239A (zh) | 2023-10-10 |
Family
ID=88224722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310840523.6A Pending CN116861239A (zh) | 2023-07-10 | 2023-07-10 | 一种联邦学习方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861239A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
CN117811722A (zh) * | 2024-03-01 | 2024-04-02 | 山东云海国创云计算装备产业创新中心有限公司 | 全局参数模型构建方法、秘钥生成方法、装置及服务器 |
CN117972700A (zh) * | 2024-03-29 | 2024-05-03 | 华东交通大学 | 基于深度强化学习的中毒攻击检测与惩罚方法及系统 |
CN118278506A (zh) * | 2024-05-31 | 2024-07-02 | 南方电网能源发展研究院有限责任公司 | 基于多梯度公平下降联邦学习算法的负荷预测模型建立方法、装置、设备和存储介质 |
CN118278545A (zh) * | 2024-05-29 | 2024-07-02 | 山东智和创信息技术有限公司 | 一种面向电网数据隐私保护的联邦学习测试框架 |
CN118368053A (zh) * | 2024-06-17 | 2024-07-19 | 山东大学 | 一种基于分片区块链的链上链下协同安全计算方法及系统 |
-
2023
- 2023-07-10 CN CN202310840523.6A patent/CN116861239A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
CN117172338B (zh) * | 2023-11-02 | 2024-02-02 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
CN117811722A (zh) * | 2024-03-01 | 2024-04-02 | 山东云海国创云计算装备产业创新中心有限公司 | 全局参数模型构建方法、秘钥生成方法、装置及服务器 |
CN117811722B (zh) * | 2024-03-01 | 2024-05-24 | 山东云海国创云计算装备产业创新中心有限公司 | 全局参数模型构建方法、秘钥生成方法、装置及服务器 |
CN117972700A (zh) * | 2024-03-29 | 2024-05-03 | 华东交通大学 | 基于深度强化学习的中毒攻击检测与惩罚方法及系统 |
CN118278545A (zh) * | 2024-05-29 | 2024-07-02 | 山东智和创信息技术有限公司 | 一种面向电网数据隐私保护的联邦学习测试框架 |
CN118278506A (zh) * | 2024-05-31 | 2024-07-02 | 南方电网能源发展研究院有限责任公司 | 基于多梯度公平下降联邦学习算法的负荷预测模型建立方法、装置、设备和存储介质 |
CN118368053A (zh) * | 2024-06-17 | 2024-07-19 | 山东大学 | 一种基于分片区块链的链上链下协同安全计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116861239A (zh) | 一种联邦学习方法和系统 | |
CN110460572B (zh) | 基于Markov信号博弈的移动目标防御策略选取方法及设备 | |
CN112668044B (zh) | 面向联邦学习的隐私保护方法及装置 | |
CN107612878B (zh) | 基于博弈论的动态窗口选择方法及无线网络信任管理系统 | |
Yuan et al. | Amplitude-varying perturbation for balancing privacy and utility in federated learning | |
CN114519190A (zh) | 基于贝叶斯网络攻击图的多目标网络安全动态评估方法 | |
Peng et al. | A hybrid multiobjective discrete particle swarm optimization algorithm for cooperative air combat DWTA | |
CN117634594A (zh) | 一种具有差分隐私的自适应聚类联邦学习方法 | |
Xu et al. | A blockchain-based federated learning scheme for data sharing in industrial internet of things | |
CN115719085A (zh) | 一种深度神经网络模型反演攻击防御方法及设备 | |
Hu et al. | RL-VAEGAN: Adversarial defense for reinforcement learning agents via style transfer | |
CN114281103B (zh) | 一种零交互通信的飞行器集群协同搜索方法 | |
CN117807597A (zh) | 面向后门攻击的鲁棒个性化联邦学习方法 | |
Wang et al. | Game-theoretic actor–critic-based intrusion response scheme (gtac-irs) for wireless sdn-based iot networks | |
CN111881439A (zh) | 一种基于对抗性正则化的识别模型设计方法 | |
Zhang et al. | Backtracking search algorithm with dynamic population for energy consumption problem of a UAV-assisted IoT data collection system | |
Ding et al. | Differentially private deep learning with iterative gradient descent optimization | |
Li et al. | Trustiness-based hierarchical decentralized federated learning | |
WO2022252039A1 (en) | Method and apparatus for adversarial attacking in deep reinforcement learning | |
Li et al. | Robust moving target defense against unknown attacks: A meta-reinforcement learning approach | |
Hernandez-Ramos et al. | Intrusion Detection based on Federated Learning: a systematic review | |
CN113132398A (zh) | 一种基于q学习的阵列蜜罐系统防御策略预测方法 | |
CN117216788A (zh) | 基于区块链的联邦学习隐私保护视频场景识别方法 | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 | |
CN115983389A (zh) | 一种基于强化学习的攻防博弈决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |