CN115310625A - 一种纵向联邦学习推理攻击防御方法 - Google Patents

一种纵向联邦学习推理攻击防御方法 Download PDF

Info

Publication number
CN115310625A
CN115310625A CN202210946007.7A CN202210946007A CN115310625A CN 115310625 A CN115310625 A CN 115310625A CN 202210946007 A CN202210946007 A CN 202210946007A CN 115310625 A CN115310625 A CN 115310625A
Authority
CN
China
Prior art keywords
model
participant
participants
party
federal learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210946007.7A
Other languages
English (en)
Inventor
樊凯
洪劲涛
李文杰
李晋
韦棋钧
李晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210946007.7A priority Critical patent/CN115310625A/zh
Publication of CN115310625A publication Critical patent/CN115310625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种纵向联邦学习推理攻击防御方法,先构建多个参与方的纵向联邦学习系统,其中一个参与方作为协作方;协调方拥有顶部模型和数据标签,参与方具有本地模型和本地数据;联邦学习,协作方在获取参与方本地模型的中间结果后,计算每个参与方的Shapley值衡量其贡献度;计算完参与方的贡献度后,协调方将全部参与方的中间结果聚合,输入顶部模型继续进行训练;协调方依据拥有的标签计算梯度,同时利用之前计算好的Shapley值来缩放返回给每个参与方梯度,防止联邦模型更依赖于某一个参与方的本地模型,来抵御主动标签推理攻击,保证纵向联邦学习的公平性。

Description

一种纵向联邦学习推理攻击防御方法
技术领域
本发明属于联邦学习隐私安全技术领域,具体涉及一种纵向联邦学习推理攻击防御方法。
背景技术
随着终端设备的爆发式增加,海量数据随着产生,这些数据蕴藏了着极大的价值。然而,由于近几年隐私泄露事件频发,越来越多的国家开始关注数据隐私问题,并且颁布了一系列隐私保护条例,严格限制对个人隐私数据的使用,这对传统的机器学习带来了挑战,“数据孤岛”问题日益严重。在这一背景下,Google提出了联邦学习这一概念,与传统的机器学习不同,联邦学习不需要将数据集中在一起进行模型训练,而是通过聚合每个参与方的模型中间结果,在训练过程中数据始终保存在本地,没有隐私泄露威胁。
微众银行对联邦学习进一步分类为横向联邦学习、纵向联邦学习和联邦迁移学习。在国内纵向联邦学习的应用较为普遍,例如银行与互联网公司共同训练一个贷款风险预测模型,银行作为主动方拥有较少的用户特征以及标签,而互联网公司作为被动方拥有丰富的用户特征,在纵向联邦学习训练过程中,银行借助互联网公司的数据来扩展自己拥有的用户特征维度,以此来训练一个更加精确的贷款风险预测模型,评估用户是否会贷款违约。
然而,纵向联邦学习中难以保证所有参与方都是可信的,一些参与方会破坏纵向联邦学习系统的公平性,使得最终的联邦模型更偏向于该参与方的模型。例如参与方进行主动标签推理攻击,在训练过程中动态的放大自己的训练梯度,使得自己的本地模型训练得更快更好,逐步取代全局模型。由于这一攻击只在参与方本地完成,并且在一些情况下会使联邦模型训练得更好,所以很难进行检测,因此亟须一种技术来抵御这一攻击,维护纵向联邦学习系统的安全性。
发明内容
为了克服上述现有技术的缺点,本发明的目的是提供一种纵向联邦学习推理攻击防御方法,使纵向联邦学习系统能够抵御主动标签推理攻击,保证纵向联邦学习的公平性。
为实现上述发明目的,本发明提供以下技术方案:
一种纵向联邦学习推理攻击防御方法,包括以下步骤:
步骤1,构建多个参与方的纵向联邦学习系统,其中一个参与方同时作为协作方控制联邦学习训练进程;
步骤2,进行多个参与方的纵向联邦学习系统的联邦学习,协作方拥有顶部模型和数据标签,参与方拥有本地模型和数据特征;每个参与方利用自己的本地数据集训练本地模型,并上传模型中间结果至协作方;协作方收到全部参与方的模型中间结果后以不同的组合结果输入到顶部模型计算模型损失值,并通过模型损失值来计算每个参与方的Shapley值评估每个本地模型的贡献度;协作方将所有参与方的模型中间结果聚合后输入顶部模型继续进行训练,之后进行反向传播得到返回给每个参与方的梯度,依据之前计算的Shapley值来进行缩放,以此来抵御主动标签推理攻击;每个参与方接收到梯度之后,继续进行反向传播过程,并进行下一轮联邦学习;
步骤3,提取联邦学习结束后的协调方的顶部模型和其本地模型作为能够防御主动标签推理攻击的用于图像识别或贷款风险预测的纵向联邦学习模型。
所述协作方采用全排列组合的方式,依据不同排列组合下对顶部模型的模型损失值影响来计算Shapley值。
计算Shapley值时以对模型损失值影响的倒数来作为参与方的边际收益,并使用Shapley值计算公式进行计算。
协调方依据每个参与方的Shapley值来计算平均贡献率,并以此缩放梯度,具体为:
计算所有参与方的Shapley值之和,并将每个参与方的Shapley值除以总和求得每个参与方的贡献率,假设参与方平均贡献率为1除以参与方的个数,比较每个参与方贡献率与平均贡献率对梯度进行缩放;
针对参与方为高贡献率的情况,对返回给该参与方的梯度进行缩小,防止该本地模型训练得过快而使得联邦模型被该本地模型所取代,分类时更加依靠该参与方的,破坏纵向联邦学习的公平性;
针对参与方为低贡献度的情况,对返回该参与方的梯度进行增大,提高该参与方的训练进程速度,使得联邦模型不会忽略该参与方的模型和本地数据,保护纵向联邦学习的公平性。
对高贡献度参与方和低贡献度参与方依据其贡献度比平均贡献度的比值来判断,并且有鲁棒区间,具体为:
针对参与方贡献率和平均贡献率的比值大于2即高贡献度以及比值小于1/2即低贡献度的情况下,将协调方返回给该参与方的梯度乘以贡献率率和平均贡献率的比值倒数。
与现有技术相比,本发明的有益效果为:
协作方通过计算每个参与方的Shapley值,并对返回给每个参与方的梯度进行缩放以有效抵御主动标签推理攻击,防止参与方的高贡献率以取代联邦模型或使得联邦模型的预测结果更加倾向与某一个参与方的数据集,也可以防止参与方的低贡献度而使得联邦模型忽视该参与方的模型或数据集,以此来抵御主动标签推理攻击;
协作方无须重复进行额外的模型训练就可以评估每个参与方的贡献度,同时计算速度较快,适合于大规模纵向联邦学习系统,并且会对低贡献度的参与方进行加速训练,维护纵向联邦学习的安全性,促进联邦学习生态的形成。
附图说明
图1是本发明实施例纵向联邦学习推理攻击防御方法流程图。
图2是本发明实施例用于图像识别或贷款风险评估的纵向联邦学习系统结构示意图。
图3是本发明实施例原始纵向联邦学习和加上防御方法后的纵向联邦学习在一个训练轮次中的时间对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的实施例仅仅用以解释本发明,并不用于限定本发明。
针对如何保证纵向联邦学习中的模型公平问题,鉴于纵向联邦学习系统在图像识别或贷款风险预测场景中进行广泛部署后存在主动标签推理攻击的风险,有必要研究一种有效的防御方法。本发明旨在从纵向联邦学习系统中协作方的角度提出一种纵向联邦学习推理攻击防御方法,具体技术构思为:在纵向联邦学习系统中被动方发起的主动标签推理攻击会使自己的本地模型训练得更好,以此来使得训练好的联邦模型更加偏向于该参与方的本地模型或者在模型预测阶段偏向于该参与方的本地数据,因此只需要协作方能够判断每个参与方的贡献度,就可以甄别出进行主动标签推理攻击的参与方,同时对协调方返回给该参与方的梯度进行缩小,来防止主动标签攻击破坏纵向联邦学习的公平性。
如图1所示,一种纵向联邦学习推理攻击防御方法,包括以下步骤:
步骤1,构建多个参与方的纵向联邦学习系统,其中一个参与方同时作为协作方控制联邦学习训练进程,多个参与方的纵向联邦学习系统用于通过纵向联邦学习构建图像识别模型或贷款风险预测模型;
步骤2,按照纵向联邦学习系统的一般架构,参与方具有本地样本和本地模型,其中一个参与方同时作为协作方具有能够分类能力的顶部模型;每个参与方在自己的本地数据集上训练本地模型,在进行前向传播后将模型中间结果发送给协作方;协作方对上传的模型中间结果进行聚合后继续进行前向传播过程;协作方完成前向传播过程之后进行反向传播计算梯度,将梯度发送给每个参与方,参与方接收到梯度后更新本地模型并进行下一轮联邦学习;
实施例中作为协调方的参与方有少量样本特征及标签,其他参与方具有大量的样本特征但不具有标签;在贷款风险预测领域,参与方具有用户的个人特征,其中个人特征包括年龄、性别、收入、贷款记录、消费记录等,基于该个人特征的信息利用纵向联邦学习可以实现一个更加准确的用户贷款风险预测模型;而在图像识别领域,参与方分别具有分类标签的部分图片,而其中一个参与方作为协调方拥有标签,以此来训练一个更加精确的图像识别模型。
实施例中参与方的本地模型采用的通常是深度学习模型,例如卷积神经网络模型、深度残差网络模型、全连接神经网络模型等,协作方通常为四到五层的全连接层神经网络模型;顶部模型和本地模型均包括输入层、隐藏层以及输出层,不同层之间存在连接关系。参照图2,图2中的圆圈均表示神经元,神经元之间的线代表连接关系,其中本地模型的输出层和顶部模型的输入层维度相同,以此来实现模型中间结果的训练和反向传播梯度的传递。
如图2所示,企业A、B均为参与方,其中企业B也作为协调方,企业A会运行一个恶意的优化器,对来自服务器的梯度进行恶意扩大,加速自己的训练进程,使得训练好的联邦模型更加偏向于自己;因此采用步骤2的方式对协调方返回给参与方的梯度进行动态调节,以确保纵向联邦学习的公平性;
进行多个参与方的纵向联邦学习系统的联邦学习,每个参与方在自己的隐私数据集上进行模型训练,训练完成后将模型中间结果上传至协作方;
如图2所示,联邦学习过程中,每个参与方的本地数据集是不同的,因此上传的模型中间结果也不同;
步骤3,提取联邦学习结束后的协调方的顶部模型和其本地模型作为能够防御主动标签推理攻击的用于图像识别或贷款风险预测的纵向联邦学习模型;
实施例中,协作方接受到的参与方模型中间结果集合表示
Figure BDA0003787494940000051
其中K表示有K个参与方;协作方将接收到的模型中间结果以不同的排列组合方式进行聚合,S表示所有可能的参与方本地模型输出聚合结果,将不同的聚合输入顶部模型中计算模型损失,那么第k个参与方的Shapley值为:
Figure BDA0003787494940000052
其中Loss表示不同本地模型结果聚合后输入顶部模型得到的模型损失值;
在计算完每个参与方的Shapley值后,协调方依据每个参与方的Shapley值来计算平均贡献率,并以此缩放梯度;首先计算所有参与方的Shapley值之和,并将每个参与方的Shapley值除以总和求得每个参与方的贡献率,假设参与方平均贡献率为1除以参与方的个数,比较每个参与方贡献率与平均贡献率对梯度进行缩放;
针对参与方为高贡献率的情况,对返回给该参与方的梯度进行缩小,防止该本地模型训练得过快而使得联邦模型被该本地模型所取代,分类时更加依靠该参与方的,破坏纵向联邦学习的公平性;
针对参与方为低贡献度的情况,对返回该参与方的梯度进行增大,提高该参与方的训练进程速度,使得联邦模型不会忽略该参与方的模型和本地数据,保护纵向联邦学习的公平性。
对高贡献度参与方和低贡献度参与方依据其贡献度比平均贡献度的比值来判断,并且有一定的鲁棒区间,具体为:
针对参与方贡献率和平均贡献率的比值大于2即高贡献度以及比值小于1/2即低贡献度的情况下,将协调方返回给该参与方的梯度乘以贡献率率和平均贡献率的比值倒数。
如图3所示,在实施例中,对于经典图像识别数据集CIFAR-10、CIFAR-100、CINIC-10,以及包含有二十万条借贷记录的贷款风险预测数据集下,分别进行纵向联邦学习训练,左边是原始纵向联邦学习系统训练完一次数据集所需时间,右边是加上基于Shapley值的推理攻击防御方法的纵向联邦学习训练完一次数据集所需的时间,可以明显看出,本发明方法仅仅使得纵向联邦学习多出大约百分之三的训练时间,即以较小的资源开销提升了纵向联邦学习系统的安全性和公平性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种纵向联邦学习推理攻击防御方法,其特征在于,包括以下步骤:
步骤1,构建多个参与方的纵向联邦学习系统,其中一个参与方同时作为协作方控制联邦学习训练进程;
步骤2,进行多个参与方的纵向联邦学习系统的联邦学习,协作方拥有顶部模型和数据标签,参与方拥有本地模型和数据特征;每个参与方利用自己的本地数据集训练本地模型,并上传模型中间结果至协作方;协作方收到全部参与方的模型中间结果后以不同的组合结果输入到顶部模型计算模型损失值,并通过模型损失值来计算每个参与方的Shapley值评估每个本地模型的贡献度;协作方将所有参与方的模型中间结果聚合后输入顶部模型继续进行训练,之后进行反向传播得到返回给每个参与方的梯度,依据之前计算的Shapley值来进行缩放,以此来抵御主动标签推理攻击;每个参与方接收到梯度之后,继续进行反向传播过程,并进行下一轮联邦学习;
步骤3,提取联邦学习结束后的协调方的顶部模型和其本地模型作为能够防御主动标签推理攻击的用于图像识别或贷款风险预测的纵向联邦学习模型。
2.根据权利要求1所述的方法,其特征在于:所述协作方采用全排列组合的方式,依据不同排列组合下对顶部模型的模型损失值影响来计算Shapley值。
3.根据权利要求1所述的方法,其特征在于:计算Shapley值时以对模型损失值影响的倒数来作为参与方的边际收益,并使用Shapley值计算公式进行计算。
4.根据权利要求1所述的方法,其特征在于:协调方依据每个参与方的Shapley值来计算平均贡献率,并以此缩放梯度,具体为:
计算所有参与方的Shapley值之和,并将每个参与方的Shapley值除以总和求得每个参与方的贡献率,假设参与方平均贡献率为1除以参与方的个数,比较每个参与方贡献率与平均贡献率对梯度进行缩放;
针对参与方为高贡献率的情况,对返回给该参与方的梯度进行缩小,防止该本地模型训练得过快而使得联邦模型被该本地模型所取代,分类时更加依靠该参与方的,破坏纵向联邦学习的公平性;
针对参与方为低贡献度的情况,对返回该参与方的梯度进行增大,提高该参与方的训练进程速度,使得联邦模型不会忽略该参与方的模型和本地数据,保护纵向联邦学习的公平性。
5.根据权利要求4所述的方法,其特征在于:对高贡献度参与方和低贡献度参与方依据其贡献度比平均贡献度的比值来判断,并且有鲁棒区间,具体为:
针对参与方贡献率和平均贡献率的比值大于2即高贡献度以及比值小于1/2即低贡献度的情况下,将协调方返回给该参与方的梯度乘以贡献率率和平均贡献率的比值倒数。
CN202210946007.7A 2022-08-08 2022-08-08 一种纵向联邦学习推理攻击防御方法 Pending CN115310625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210946007.7A CN115310625A (zh) 2022-08-08 2022-08-08 一种纵向联邦学习推理攻击防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210946007.7A CN115310625A (zh) 2022-08-08 2022-08-08 一种纵向联邦学习推理攻击防御方法

Publications (1)

Publication Number Publication Date
CN115310625A true CN115310625A (zh) 2022-11-08

Family

ID=83861154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210946007.7A Pending CN115310625A (zh) 2022-08-08 2022-08-08 一种纵向联邦学习推理攻击防御方法

Country Status (1)

Country Link
CN (1) CN115310625A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150422A (zh) * 2023-11-01 2023-12-01 数据空间研究院 纵向联邦学习系统中基于样本交换的标签推断攻击方法
CN117453414A (zh) * 2023-11-10 2024-01-26 国网山东省电力公司营销服务中心(计量中心) 电力数据参与数据共享计算的贡献度预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150422A (zh) * 2023-11-01 2023-12-01 数据空间研究院 纵向联邦学习系统中基于样本交换的标签推断攻击方法
CN117150422B (zh) * 2023-11-01 2024-02-02 数据空间研究院 纵向联邦学习系统中基于样本交换的标签推断攻击方法
CN117453414A (zh) * 2023-11-10 2024-01-26 国网山东省电力公司营销服务中心(计量中心) 电力数据参与数据共享计算的贡献度预测方法及系统

Similar Documents

Publication Publication Date Title
Zhang et al. Gan enhanced membership inference: A passive local attack in federated learning
CN110460600B (zh) 可抵御生成对抗网络攻击的联合深度学习方法
CN115310625A (zh) 一种纵向联邦学习推理攻击防御方法
CN112418520B (zh) 一种基于联邦学习的信用卡交易风险预测方法
US11520899B2 (en) System and method for machine learning architecture with adversarial attack defense
CN108921764A (zh) 一种基于生成对抗网络的图像隐写方法及系统
CN110598982B (zh) 基于智能交互的主动风控方法和系统
CN112862001A (zh) 一种隐私保护下的去中心化数据建模方法
CN115907029B (zh) 面向联邦学习投毒攻击的防御方法及系统
CN115409155A (zh) 基于Transformer增强霍克斯过程的信息级联预测系统及方法
CN112163238A (zh) 一种多方参与数据不共享的网络模型训练方法
CN115687758A (zh) 一种用户分类模型训练方法、用户检测方法
CN118211268A (zh) 基于扩散模型的异构联邦学习隐私保护方法及系统
Yang et al. A general steganographic framework for neural network models
Song et al. Learning structural similarity with evolutionary-GAN: A new face de-identification method
Yu et al. Security and Privacy in Federated Learning
Xia et al. SVCA: Secure and Verifiable Chained Aggregation for Privacy-Preserving Federated Learning
CN113850399A (zh) 一种基于预测置信度序列的联邦学习成员推断方法
Chen et al. Privacy-preserving DeepFake face image detection
CN117391816A (zh) 一种异质图神经网络推荐方法、装置及设备
CN117454413A (zh) 一种基于加权蒸馏的异构联邦学习及恶意客户端防御方法
Zhao et al. User‐Level Membership Inference for Federated Learning in Wireless Network Environment
Zeng et al. A framework of camera source identification Bayesian game
CN116050546A (zh) 一种数据非独立同分布下的拜占庭鲁棒的联邦学习方法
CN116091891A (zh) 图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination