CN116167084A - 一种基于混合策略的联邦学习模型训练隐私保护方法及系统 - Google Patents

一种基于混合策略的联邦学习模型训练隐私保护方法及系统 Download PDF

Info

Publication number
CN116167084A
CN116167084A CN202310176259.0A CN202310176259A CN116167084A CN 116167084 A CN116167084 A CN 116167084A CN 202310176259 A CN202310176259 A CN 202310176259A CN 116167084 A CN116167084 A CN 116167084A
Authority
CN
China
Prior art keywords
model
training
privacy
federal learning
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310176259.0A
Other languages
English (en)
Inventor
黄志清
洪岩
谢飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202310176259.0A priority Critical patent/CN116167084A/zh
Publication of CN116167084A publication Critical patent/CN116167084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于混合策略的联邦学习模型训练隐私保护方法及系统,将混淆自编码器网络结合到联邦学习参与方本地模型训练过程中,对数据标签进行混淆映射,以此切断梯度信息与数据信息间的关系,阻止攻击方利用梯度信息重构出用户原始数据;将本地化差分隐私机制结合到联邦学习的参数传递过程中,对梯度参数添加满足(ε,δ)‑本地化差分隐私的高斯噪声,以此对梯度信息进行扰动,同时在中心服务器聚合过程中通过随机化机制近似平均聚合,隐藏单个参与方贡献,以此阻止攻击方进行的推理攻击。本发明能够构建一个隐私安全的联邦学习系统,抵御联邦学习模型训练过程中梯度泄漏导致的各种隐私风险,同时在模型性能和隐私安全间达到了更好的平衡。

Description

一种基于混合策略的联邦学习模型训练隐私保护方法及系统
技术领域
本发明涉及联邦学习与隐私保护领域,具体涉及一种利用混淆自编码器结合本地化差分隐私,形成一种混合防御策略进行隐私保护的联邦学习模型训练方法及系统。
背景技术
联邦学习是一种分布式机器学习框架,强调数据不出本地的情况下多方进行联合训练得到一个联邦模型。在中心式联邦学习场景中,每个参与方向同一个参数聚合服务器进行参数交互,首先,各参与方从中心服务器下载一个预备全局模型,然后利用本地数据进行模型的训练,再将本地模型的参数或者参数更新量上传到中心服务器,中心服务器对这些本地模型的参数进行聚合,得到一个新的全局模型,下发给各参与方进行下一轮次训练,直至模型收敛。联邦学习在实用性与用户隐私性之间提供了一个有吸引力的折中方案,各参与方在本地进行模型训练,并与其他参与方共享一部分梯度,也就是说训练集不会离开本地机器,通过搜集和交换这些梯度,联邦学习可以实现与集中式训练精度几乎一样的模型。但是有研究表明,“诚实但好奇的”参与方和中心服务器能够在遵守联邦协议的前提下,仅仅通过联邦训练过程中的梯度参数信息,进行重构攻击来获取参与方训练数据或者成员推理攻击来判断参与方数据的分布情况,造成参与方数据隐私的泄露。因此,研究隐私安全的联邦学习模型训练方法具有重要的意义。
目前,针对联邦学习模型训练中梯度传输造成的隐私泄露,主要的解决方案分为两大类,分别为基于密码学的防御方案和基于信息掩盖的防御方案。基于密码学的方案如同态加密、秘密共享、安全多方计算等,主要思路是对传输的梯度信息进行加密,这种解决方案增加了联邦学习系统中的计算和通信开销,在涉及到大量参与方进行联邦学习的场景下,这种巨大的计算、通信成本是难以容忍的。基于信息掩盖的防御方案集中于利用梯度压缩、差分隐私等技术对传输的梯度信息进行扰动,使得攻击方无法从扰动后的梯度参数信息里获取参与方相关隐私信息,这种解决方案不同程度地减少或扰动了模型训练所需要的信息量,对模型的性能造成了负面影响。因此,联邦学习中的隐私保护问题需要一种在资源开销、模型性能、隐私安全间达到更好平衡的解决方案。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于混合策略的联邦学习模型训练隐私保护方法,将混淆自编码器与本地化差分隐私相结合,能够成功抵御“诚实但好奇”的攻击方的重构攻击和推理攻击,并且能同时保证较高的模型主任务精度,在联邦学习模型的隐私和性能间达到了更好的平衡。
为了解决上述问题,按照本发明的第一方面,提供一种基于混合策略的联邦学习模型训练隐私保护方法,包括:
步骤1:多数据参与方与中心服务器作为实体组成中心式联邦学习系统;
步骤2:各方约定一致的训练目标,中心服务器将初始模型广播给参与方;
步骤3:对步骤2中描述的联邦模型,参与方在本地利用本地数据对其进行优化,包括:本地数据的标签混淆;
步骤4:客户端将得到的梯度参数上传至中心服务器,其中对梯度参数利用本地化差分隐私机制进行处理,包括:梯度裁剪、添加噪声、计算高斯噪声标准差。
步骤5:服务端对步骤5中采样得到的客户端子集上传的梯度参数进行安全聚合,使用随机化机制混淆各方更新的和,得到近似平均的全局模型。
步骤6:根据性能损失约束机制对模型性能损失进行约束,降低联邦模型的性能损失。
步骤7:服务端对更新后的全局模型计算隐私损失并判断模型收敛情况以及相应的全局迭代次数,如果当前模型的隐私预算达到了设定的阈值,也就是说该模型有隐私泄露的风险,或者模型收敛,或者达到了最大迭代次数,那么服务器会终止模型的训练过程,向客户端发送终止训练信息,并返回当前联邦模型。步骤8:服务端对参与方进行随机子采样。
步骤9:对于步骤7中采样得到的客户端子集,服务端向其发送步骤5中得到的最新全局模型。
步骤10:重复步骤3~8,直至从步骤6中退出。
步骤11:得到最终的联邦模型。
进一步地,步骤3中利用基于熵正则化的自编码器对标签进行混淆的算法如图2所示,包括:
步骤3.1:开启本地轮次模型训练;
步骤3.2:计算“伪标签”:
Figure BDA0004100971810000031
步骤3.3:利用标签混淆后的数据参与联邦训练,得到模型预测标签:Yp
f(H);
步骤3.4:计算交叉熵损失:
Figure BDA0004100971810000032
步骤3.5:将原始梯度替换为
Figure BDA0004100971810000033
并上传给中心服务器;
步骤3.6:等待下一轮次全局模型下发;
进一步地,步骤3.2的编码器网络参数We由如下过程获得:
步骤3.2.1:对每一参与训练的数据生成one-hot标签;
步骤3.2.2:由
Figure BDA0004100971810000034
生成编码后的“伪标签”;
步骤3.2.3:计算总体损失:L=Lcontra2Lentropy,由交叉熵损失和对比损失两部分计算得到,交叉熵损失
Figure BDA0004100971810000035
是将每个真实标签映射到替代标签的熵损失,用于增加“伪标签”与数据样本间的混淆映射;Lcontra是对比损失,使得解码器网络能够从“伪标签”中重建真实标签,同时迫使“伪标签”与原始标签不同,λs,s∈{1,2}为损失权重。
步骤3.2.4:更新参数:
Figure BDA00041009718100000311
步骤3.2.5:迭代至模型收敛,返回编码器网络We、解码器网络Wd
进一步地,步骤4包括:
步骤4.1:客户端利用本地数据优化服务器发来的当前轮次全局模型,根据具体的损失函数计算中间梯度信息
Figure BDA0004100971810000036
b为训练集B中的每个数据对。步骤4.2:对步骤4.1中得到的梯度参数进行梯度裁剪
Figure BDA0004100971810000037
主要是对梯度参数的L2范数||g||2进行裁剪,梯度裁剪的阈值设定为C的话,那么客户端i训练得到的梯度参数gi将会被
Figure BDA0004100971810000038
取代,也就是说,当||g||2≤C时,原始梯度参数gi被保留,而当||g||2≥C时,用阈值C来替代上传的梯度参数gi
步骤4.3:对模型参数进行更新,
Figure BDA0004100971810000039
步骤4.4:计算隐私敏感度
Figure BDA00041009718100000310
C为裁剪阈值,m为本地数据集大小,敏感度也就是随机化函数加入噪声后的震荡范围,是决定所添加噪声大小的关键因素。
步骤4.5:根据步骤4.4中得到的隐私敏感度计算噪声尺度
Figure BDA0004100971810000041
用于对添加的噪声进行约束,否则过多的噪声会导致模型不收敛,其中将每轮训练的敏感度定义为
Figure BDA0004100971810000042
q为客户端采样率,T是训练迭代轮次,∈i为客户端i的隐私预算,δi代表了宽松程度。
步骤4.6:根据步骤4.5中得到的噪声尺寸,进行梯度参数扰动
Figure BDA0004100971810000043
Figure BDA0004100971810000044
wk为原始梯度,
Figure BDA0004100971810000045
为添加的噪声,将原始梯度参数替换为高斯扰动后的梯度参数进行上传。
进一步地,步骤5包括:
步骤5.1:使用真实更新值的缩放版本来增强敏感度:
Figure BDA0004100971810000046
缩放更新相对于求和操作的敏感度以S为上限,因此使用原始贡献值的中位数为裁剪界S=media{Δwk}k∈Zt
步骤5.2:将高斯噪声添加到所有缩放更新后的更新值之和中;
步骤5.3:高斯机制的输出除以mt得到所有客户端更新的真实平均值的近似值;
步骤5.4:将混淆后近似值添加到当前的全局模型wt中得到新的全局模型wt+1
Figure BDA0004100971810000047
进一步地,步骤6包括:
步骤6.1:计算客户端i的模型性能损失:
Figure BDA0004100971810000048
其中
Figure BDA0004100971810000049
Figure BDA00041009718100000410
是模型的性能函数,v0为高斯分布N(0,σ2 i)的概率密度函数,v1是(qN(Δs,σ2 i)+(1-q)N(0,σ2 i))的概率密度函数。
Figure BDA00041009718100000411
Figure BDA00041009718100000412
步骤6.2:计算联邦学习系统整体的性能损失:
Figure BDA00041009718100000413
Figure BDA00041009718100000414
其中k为参与方数量,E为全局通信轮次。
步骤6.3:根据步骤6.1和6.2可知,对联邦训练过程中对λ时刻的损失函数进行进一步约束,即
Figure BDA00041009718100000415
该式说明本发明提出的联邦学习训练方法只需要通过对Ev1,v0约束即可,从而降低联邦学习过程中的性能损失。
进一步地,步骤7包括:
步骤7.1:计算当前模型的隐私损失:
Figure BDA0004100971810000051
其本质是算法
Figure BDA0004100971810000052
在相邻数据集d,d'上输出均为o的概率的差异;
步骤7.2:判断隐私损失和Q的关系,如果隐私损失超过了阈值Q,将终止模型的训练,因为模型继续训练下去无法保证(ε,δ)-本地化差分隐私,其隐私泄露的可能性会大于δ;
步骤7.3:判断模型收敛情况,如果模型已经,直接返回全局模型,不必等到最大迭代次数;
步骤7.4:判断模型迭代次数情况,如果小于设定的最大全局通信轮次,则开启新一轮次的全局训练,否则返回全局模型。
按照本发明的第二方面,提供一种基于混合策略的联邦学习隐私保护系统,包括:
客户端的流程控制模块,用于控制联邦学习模型本地训练部分的执行逻辑。本地模型训练主要分为三个步骤,分别为1)模型训练;2)自动编码器模型训练;3)参数扰动。在步骤一中,各客户端使用本地的数据集对全局模型进行本地训练。在步骤二中,通过优化交叉熵损失和对比损失更新自编码器网络,利用得到的编码器对本地数据样本进行编码和混淆,并用编码后的标签替换真实标签去参加联邦模型的训练。在步骤三中,对联邦模型网络输出的梯度参数进行裁剪更新参数,同时计算隐私敏感度和噪声尺度,进行参数扰动后发送给云中心服务器,上传成功后等待下一轮次的全局模型;
服务器训练控制模块,用于控制整个联邦学习训练的执行逻辑,在对全局模型完成更新,开启下一轮次模型迭代时,会先通过隐私跟踪机制判断隐私预算是否用完,如果超过了设定的隐私阈值,会终止整个联邦模型的训练,返回当前模型,否则客户端上传的参数进行聚合,最后训练控制模块根据模型的收敛情况选择开启下一轮次联邦模型训练流程或者结束训练;
模型参数聚合模块,用于联邦模型参数的安全聚合,采用高斯机制来混淆所有更新的和,选择合适的裁剪界S以及变形程度及隐私损失参数σ和m使得在更严格的隐私损失要求下保证模型的性能;
终端管理模块,用于管理联邦学习系统的各参与方,也就是参与联邦模型训练的客户端,会为每一个客户端创建一个实例对象,保存他们的一些信息,例如客户端ip地址、计算能力、存储能力、传输能力和本地数据集大小和本地训练过程中的平均损失函数值等。终端管理模块同时也负责与其他模块进行交互工作,例如当流程控制模块将具体的指令如开启下一轮次训练或者停止训练流程发送给终端管理模块时,它也需要根据这些具体的信息,生成相应的传输内容,通过ProtoBuf序列化后,将这些数据传送给远程调用模块;
远程调用模块,用于搭建客户端与中心服务器间的通信体系,选用gRPC框架进行实现。终端管理模块将具体传输的数据传递给远程调用模块时,远程调用模块通过网络传输将消息发送到客户端,开始等待终端的训练结果;
序列化模块,用于对客户端与服务器间传输的参数信息进行序列化和反序列化,选用ProtoBuf框架实现,它是一种轻便高效的结构化数据存储格式,相比与JSON和XML,它的体积更小,解析速度更快,能够显著提高联邦学习系统的通信效率。
总体而言,通过本发明所构思的以上技术方案和现有技术相比,能够取得以下有益效果:
1.本发明的方法,可以成功抵御针对中心式联邦学习的重构攻击和推理攻击,并且可以保证联邦模型主任务的相对准确性以及模型的收敛性,消耗更少的计算资源和通信资源,在模型性能和隐私损失间达到更好的平衡。
2.本发明的系统设计,可以实现一个隐私安全的联邦学习系统,在保障数据隐私安全的前提下完成联邦模型的训练,部署后对外提供相应服务,具有一定的现实意义和应用价值。
附图说明
图1为本发明联邦学习整体框架图。
图2为本发明联邦学习结合自编码器训练流程图。
图3为本发明系统模块图。
图4为本发明实体交互图。
图5为本发明客户端训练流程图。
图6为本发明中心服务端训练流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明主要基于混淆自编码器网络和差分隐私技术对联邦学习系统进行隐私增强,整体框架如图1所示。
本发明设计的隐私保护的联邦学习系统分为四层,如图3,分别为应用层、平台执行层、基础服务层以及物理资源层,其中应用层部署训练好的联邦学习模型,如图像分类、目标检测等模型,并提供相应的对外接口提供服务;平台执行层包括各参与方部署的终端执行模块Client-Module和云端的中心服务器模块Server-Module,Client-Module负责控制参与方本地的联邦模型的训练过程,而Server-Module负责模型训练过程中的参数安全聚合以及对整个联邦学习流程进行管理,包括执行流程、终端管理等工作。基础服务层为分布式联邦学习的搭建提供基础服务,包括通信控制工具gRPC、通信序列化协议ProtoBuf、深度学习框架Pytorch、以及虚拟化平台Docker组成。物理资源层由参与方和云中心服务器构成,参与方提供相应的模型训练数据以及本地模型训练需要的服务器资源,云服务器充当各参与方参数交汇的参数服务器。
该系统主要由两个实体构成:参与方终端与云服务器,客户端与服务器间的交互流程如下:
步骤1:云中心服务器将初始模型下发至客户端采样结果集;
步骤2:参与方终端利用本地数据优化本地模型;
步骤3:结合自编码器网络混淆样本标签以及利用本地化差分隐私对参数进行噪声扰动;
步骤4:客户端完成训练任务后,将当前轮次扰动后的参数发送到中心服务器进行聚合;
步骤5:中心服务器执行基于差分隐私的安全聚合后,将新一轮参数下发至各参与方终端;
步骤6:重复上述过程直至全局模型收敛或设定的隐私预算用完。
交互过程如图4所示。
客户端的流程控制模块主要控制整个联邦学习模型训练部分的执行逻辑,本地模型训练主要分为三个步骤,分别为:
步骤1:本地模型训练,各客户端使用本地的数据集经过输入、隐藏、输出层对全局模型进行本地训练;
步骤2:混淆自编码器模型训练,通过优化交叉熵损失和对比损失更新自编码器网络,利用得到的编码器对本地数据样本进行编码和混淆,并用编码后的标签替换真实标签去参与本地神经网络模型的训练;
步骤3:对本地模型输出的梯度参数进行裁剪更新参数,同时计算隐私敏感度和噪声尺度,进行参数扰动后发送给云中心服务器,上传成功后等待下一轮次的全局模型。
联邦学习系统客户端训练流程如图5所示。
云中心服务器聚合模块主要利用高斯机制混淆客户端更新的和,改进Fed_Avg算法在受到推理攻击时容易造成隐私信息泄露的问题,中心服务器聚合主要分为两个步骤,分别为:
步骤1:随机子采样;
步骤2:利用高斯机制变形所有更新的和。
在步骤1中,训练流程控制模块在每一轮通信当中,随机采样mt个客户端,并将聚合后的模型通过终端管理模块发送到这些被选择的客户端中,经过本地训练后将更新返回给中心服务器。在步骤2中,模型参数聚合模块需要利用高斯机制去混淆所有收集到的更新的和,高斯机制将噪声添加到所有缩放后的更新值之和中,将高斯机制的输出除以mt得到所有客户端更新的真实平均值的近似值,以此作为新一通信轮次的全局模型。中心服务器聚合流程如图6所示。
需要说明的是,本发明实施例的方法适用于任何适用于中心式联邦深度监督学习模型训练场景,在参与方数量较多时拥有更好的平衡性能。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种基于混合策略的联邦学习模型训练隐私保护方法,其特征在于,包括如下步骤:
步骤1:多数据参与方与中心服务器作为实体组成中心式联邦学习系统;
步骤2:各方约定一个一致的深度学习模型训练方向,中心服务器将初始的全局模型下发至各参与方;
步骤3:各参与方利用本地数据优化本地局部的全局模型,同时本地数据的标签利用混淆自编码器网络进行混淆映射;
步骤4:计算本地中间梯度参数,并进行梯度裁剪、添加高斯噪声;
步骤5:将扰动后的梯度参数发送给服务端;
步骤6:服务器利用高斯机制混淆搜集到的更新的和;
步骤7:更新全局模型;
步骤8:计算隐私损失,若超过设定阈值或者全局模型收敛、达到设定的全局通信轮次,返回全局模型;
步骤9:若没有超过设定阈值或者全局模型不收敛、未达到设定的全局通信轮次,那么重复步骤3~8。
2.如权利要求1所述的一种基于混合策略的联邦学习模型训练隐私保护方法,其特征在于,步骤3中,标签混淆的具体过程为:
步骤3.1:利用本地数据进行自编码器网络的训练,训练目标是优化对比损失
Figure FDA0004100971790000011
和交叉熵损失
Figure FDA0004100971790000012
最终的学习目标为:L=Lcontra2Lentropy;其中对比损失是为了使得解码器网络能够从“伪标签”中重建真实标签,同时迫使“伪标签”与原始标签不同,交叉熵损失是将每个真实标签映射到替代标签的熵损失,使得标签映射引入更多混淆,其中λs,s∈{1,2}为损失权重、CE(*)是计算交叉熵损失;
步骤3.2:将真实标签y输入编码器网络得到“伪标签”
Figure FDA0004100971790000013
步骤3.3:利用
Figure FDA0004100971790000014
参与联邦学习本地的模型优化;
步骤3.4:模型推理阶段利用解码器将“伪标签”无损重建为真实标签。
3.如权利要求1所述的一种基于混合策略的联邦学习模型训练隐私保护方法,其特征在于步骤4中,局部梯度扰动的具体过程为:
步骤4.1:对损失函数输出的梯度信息进行裁剪,裁剪的阈值设定为C的话,那么客户端i训练得到的梯度参数gi将会被
Figure FDA0004100971790000015
取代,||g||2表示梯度信息的L2范数。
步骤4.2:采用宽松差分隐私定义,计算敏感度S以决定添加噪声的大小,
Figure FDA0004100971790000016
其中,Di表示客户端i拥有的数据集,Di,j表示Di中的第j个样本,arg minLi(w,Di)指当本地模型损失函数Li(w,Di)取最小值时模型变量参数w的取值。
步骤4.3:计算对梯度参数添加高斯噪声后的标准差σi,来约束添加噪声对模型性能的影响,
Figure FDA0004100971790000021
其中,将每轮训练的敏感度定义为
Figure FDA0004100971790000022
Figure FDA0004100971790000023
q为客户端采样率,T是训练迭代轮次,∈i为客户端i的隐私预算,δi代表了宽松程度。
4.如权利要求1所述的一种基于混合策略的联邦学习模型训练隐私保护方法,其特征在于步骤6中,服务器参数聚合的具体过程为:
步骤6.1:对客户端随机子采样mt≤K个客户端组成随机子集Zt,Zt中的客户端分别利用本地数据对模型全局模型wt进行优化,就有了互不相同的本地模型wk,优化后的本地模型与全局模型间的差异即为Δwk
步骤6.2:采用高斯机制来混淆所有更新的和,使用真实更新值的缩放版本来增强敏感度
Figure FDA0004100971790000024
表明缩放更新相对于求和操作的敏感度以裁剪界S为上限。
步骤6.3:将混淆后近似值添加到当前的全局模型wt中得到新的全局模型wt+1
Figure FDA0004100971790000025
即为所添加的噪声,
Figure FDA0004100971790000026
是对裁剪后的更新值求和,这两部分相加并除以采样客户端数量mt后,即为混淆后的更新的均值,添加到本轮次全局模型wt后即为新一轮次的全局参数wt+1
5.一种实现权利要求1的联邦学习隐私保护系统,其特征在于,该系统包括:
客户端的流程控制模块,控制联邦学习模型本地训练部分的执行逻辑,包括模型本地优化、混淆自编码器网络优化、局部参数扰动;
中心服务器的联邦训练控制模块,控制整个联邦学习训练的执行逻辑,在每一个通信轮次开始时,会先判断隐私预算是否用完,如果超过了设定的隐私阈值,会终止整个联邦模型的训练,返回当前模型,否则对客户端上传的参数进行聚合,最后训练控制模块根据模型的收敛情况选择开启下一轮次联邦模型训练流程或者结束训练;
终端管理模块,用于管理联邦学习系统的各参与方,即参与联邦模型训练的客户端,终端管理模块会为每个参与到联邦学习系统的客户端创建一个客户端对象,用于保存各客户端的相关信息,包括终端的ip地址、计算能力、存储能力、传输能力和本地数据集大小和本地训练过程中的平均损失函数值;
远程调用模块,选用gRPC框架进行实现,负责服务端与客户端的通信;当终端管理模块将具体传输的数据传递给远程调用模块时,远程调用模块通过网络传输将消息发送到参与方终端,并开始等待终端的训练结果;
序列化模块,选用ProtoBuf框架实现。
CN202310176259.0A 2023-02-24 2023-02-24 一种基于混合策略的联邦学习模型训练隐私保护方法及系统 Pending CN116167084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310176259.0A CN116167084A (zh) 2023-02-24 2023-02-24 一种基于混合策略的联邦学习模型训练隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310176259.0A CN116167084A (zh) 2023-02-24 2023-02-24 一种基于混合策略的联邦学习模型训练隐私保护方法及系统

Publications (1)

Publication Number Publication Date
CN116167084A true CN116167084A (zh) 2023-05-26

Family

ID=86418082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310176259.0A Pending CN116167084A (zh) 2023-02-24 2023-02-24 一种基于混合策略的联邦学习模型训练隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN116167084A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502237A (zh) * 2023-06-25 2023-07-28 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116610958A (zh) * 2023-06-20 2023-08-18 河海大学 面向无人机群水库水质检测的分布式模型训练方法及系统
CN116629388A (zh) * 2023-07-25 2023-08-22 京东科技信息技术有限公司 差分隐私联邦学习训练方法、装置和计算机可读存储介质
CN116776155A (zh) * 2023-07-14 2023-09-19 深圳大学 一种基于联邦学习的模型训练方法、装置、设备和介质
CN117094382A (zh) * 2023-10-19 2023-11-21 曲阜师范大学 一种具有隐私保护的个性化联邦学习方法、装置和介质
CN117313869A (zh) * 2023-10-30 2023-12-29 浙江大学 一种基于模型分割的大模型隐私保护推理方法
CN117407922A (zh) * 2023-12-11 2024-01-16 成都信息工程大学 一种基于量子噪声的联邦学习隐私保护系统及方法
CN117436515A (zh) * 2023-12-07 2024-01-23 四川警察学院 联邦学习方法、系统、装置以及存储介质
CN117473558A (zh) * 2023-12-25 2024-01-30 华侨大学 一种基于联邦学习的自适应dpwgan训练方法及系统
CN117521781A (zh) * 2023-11-23 2024-02-06 河海大学 基于重要梯度保护的差分隐私联邦动态聚合方法及系统
CN117708868A (zh) * 2023-11-01 2024-03-15 中国人民解放军总医院第四医学中心 基于队列数据脱敏与差分隐私保护的信息保护方法及系统
CN117910600A (zh) * 2024-03-15 2024-04-19 山东省计算中心(国家超级计算济南中心) 基于快速学习与知识积累的元持续联邦学习系统及方法
CN117932686A (zh) * 2024-03-22 2024-04-26 成都信息工程大学 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质
CN118350051A (zh) * 2024-06-17 2024-07-16 江西省网络安全研究院(江西省工业和信息产品监督检验院、江西省保密科技测评中心) 一种基于联邦学习的隐私性提升方法、系统、装置及介质
CN118394889A (zh) * 2024-06-21 2024-07-26 之江实验室 一种基于梯度压缩的大语言模型联邦微调方法和装置
CN118413402A (zh) * 2024-07-02 2024-07-30 合肥城市云数据中心股份有限公司 一种基于大语言模型的恶意域名检测方法
CN118468988A (zh) * 2024-07-09 2024-08-09 浙江大学 基于横向联邦学习的终端数据泄露事件预测方法和系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610958A (zh) * 2023-06-20 2023-08-18 河海大学 面向无人机群水库水质检测的分布式模型训练方法及系统
CN116502237A (zh) * 2023-06-25 2023-07-28 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116502237B (zh) * 2023-06-25 2023-11-17 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116776155A (zh) * 2023-07-14 2023-09-19 深圳大学 一种基于联邦学习的模型训练方法、装置、设备和介质
CN116776155B (zh) * 2023-07-14 2024-03-29 深圳大学 一种基于联邦学习的模型训练方法、装置、设备和介质
CN116629388A (zh) * 2023-07-25 2023-08-22 京东科技信息技术有限公司 差分隐私联邦学习训练方法、装置和计算机可读存储介质
CN116629388B (zh) * 2023-07-25 2023-12-05 京东科技信息技术有限公司 差分隐私联邦学习训练方法、装置和计算机可读存储介质
CN117094382A (zh) * 2023-10-19 2023-11-21 曲阜师范大学 一种具有隐私保护的个性化联邦学习方法、装置和介质
CN117094382B (zh) * 2023-10-19 2024-01-26 曲阜师范大学 一种具有隐私保护的个性化联邦学习方法、装置和介质
CN117313869A (zh) * 2023-10-30 2023-12-29 浙江大学 一种基于模型分割的大模型隐私保护推理方法
CN117313869B (zh) * 2023-10-30 2024-04-05 浙江大学 一种基于模型分割的大模型隐私保护推理方法
CN117708868A (zh) * 2023-11-01 2024-03-15 中国人民解放军总医院第四医学中心 基于队列数据脱敏与差分隐私保护的信息保护方法及系统
CN117521781A (zh) * 2023-11-23 2024-02-06 河海大学 基于重要梯度保护的差分隐私联邦动态聚合方法及系统
CN117521781B (zh) * 2023-11-23 2024-08-13 河海大学 基于重要梯度保护的差分隐私联邦动态聚合方法及系统
CN117436515A (zh) * 2023-12-07 2024-01-23 四川警察学院 联邦学习方法、系统、装置以及存储介质
CN117436515B (zh) * 2023-12-07 2024-03-12 四川警察学院 联邦学习方法、系统、装置以及存储介质
CN117407922B (zh) * 2023-12-11 2024-03-22 成都信息工程大学 一种基于量子噪声的联邦学习隐私保护系统及方法
CN117407922A (zh) * 2023-12-11 2024-01-16 成都信息工程大学 一种基于量子噪声的联邦学习隐私保护系统及方法
CN117473558A (zh) * 2023-12-25 2024-01-30 华侨大学 一种基于联邦学习的自适应dpwgan训练方法及系统
CN117910600A (zh) * 2024-03-15 2024-04-19 山东省计算中心(国家超级计算济南中心) 基于快速学习与知识积累的元持续联邦学习系统及方法
CN117910600B (zh) * 2024-03-15 2024-05-28 山东省计算中心(国家超级计算济南中心) 基于快速学习与知识积累的元持续联邦学习系统及方法
CN117932686A (zh) * 2024-03-22 2024-04-26 成都信息工程大学 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质
CN117932686B (zh) * 2024-03-22 2024-05-31 成都信息工程大学 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质
CN118350051A (zh) * 2024-06-17 2024-07-16 江西省网络安全研究院(江西省工业和信息产品监督检验院、江西省保密科技测评中心) 一种基于联邦学习的隐私性提升方法、系统、装置及介质
CN118394889A (zh) * 2024-06-21 2024-07-26 之江实验室 一种基于梯度压缩的大语言模型联邦微调方法和装置
CN118413402A (zh) * 2024-07-02 2024-07-30 合肥城市云数据中心股份有限公司 一种基于大语言模型的恶意域名检测方法
CN118468988A (zh) * 2024-07-09 2024-08-09 浙江大学 基于横向联邦学习的终端数据泄露事件预测方法和系统

Similar Documents

Publication Publication Date Title
CN116167084A (zh) 一种基于混合策略的联邦学习模型训练隐私保护方法及系统
Deng et al. Task scheduling for smart city applications based on multi-server mobile edge computing
CN110008717A (zh) 支持隐私保护的决策树分类服务系统及方法
Mendis et al. A blockchain-powered decentralized and secure computing paradigm
Li et al. Practical privacy-preserving federated learning in vehicular fog computing
CN113873534B (zh) 一种雾计算中区块链协助的联邦学习主动内容缓存方法
CN111898484A (zh) 生成模型的方法、装置、可读存储介质及电子设备
Cai et al. Building a secure knowledge marketplace over crowdsensed data streams
Khalid et al. Quantum semantic communications for metaverse: Principles and challenges
CN115563859A (zh) 一种基于分层联邦学习的电力负荷预测方法、装置及介质
CN117291258A (zh) 一种基于函数秘密共享的神经网络训练推理方法和系统
CN116561799A (zh) 一种基于云服务器的多方隐私集合运算方法
Liu et al. QuAsyncFL: Asynchronous federated learning with quantization for cloud-edge-terminal collaboration enabled AIoT
CN114760023A (zh) 基于联邦学习的模型训练方法、装置及存储介质
Beguier et al. Efficient sparse secure aggregation for federated learning
CN118041684A (zh) 一种针对区域出租车订单需求的联邦预测方法
Li et al. Privacy-preserving and poisoning-defending federated learning in fog computing
Sun et al. Edge-enabled distributed deep learning for 5g privacy protection
Lotfi et al. Semantic Information Marketing in The Metaverse: A Learning-Based Contract Theory Framework
Wang et al. VFedMH: Vertical Federated Learning for Training Multi-party Heterogeneous Models
Liu et al. PPEFL: An Edge Federated Learning Architecture with Privacy‐Preserving Mechanism
CN114997423A (zh) 一种面向联邦学习的半中心化对抗训练方法
Tran et al. A Novel Privacy-Preserving Federated Learning Model Based on Secure Multi-party Computation
Kim et al. Modern trends in quantum AI: Distributed and high-definition computation
Cai et al. Study of blockchain's consensus mechanism based on score: An improved consensus mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination