CN113591974A - 一种联邦学习中基于易遗忘数据子集的遗忘验证方法 - Google Patents

一种联邦学习中基于易遗忘数据子集的遗忘验证方法 Download PDF

Info

Publication number
CN113591974A
CN113591974A CN202110865047.4A CN202110865047A CN113591974A CN 113591974 A CN113591974 A CN 113591974A CN 202110865047 A CN202110865047 A CN 202110865047A CN 113591974 A CN113591974 A CN 113591974A
Authority
CN
China
Prior art keywords
forgetting
data
model
verification
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110865047.4A
Other languages
English (en)
Inventor
王竟亦
高向珊
马兴军
孙有程
程鹏
车欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110865047.4A priority Critical patent/CN113591974A/zh
Publication of CN113591974A publication Critical patent/CN113591974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法利用在某些损失变化幅度较大、频率较高的摇摆数据上的特定表现来标记遗忘用户和检查遗忘情况。作为遗忘验证数据集,这些数据是通过观察全局模型在联邦学习的过程中在遗忘用户的本地数据上的损失变化筛选出来的。待遗忘用户在本地数据集上微调全局模型,形成标记后的模型,上传给中心服务器聚合。遗忘用户通过检查接下来若干个周期的全局模型,根据全局模型在遗忘验证数据集上的损失方差来衡量遗忘情况。本发明提出的这种遗忘验证方法具有轻量级,持续性强,验证效果好,时间和空间开销少等优点,可以有效鉴别遗忘与否,能够广泛应用和部署在各种需要进行遗忘验证的场景中。

Description

一种联邦学习中基于易遗忘数据子集的遗忘验证方法
技术领域
本发明涉及联邦学习数据遗忘验证领域,具体涉及一种联邦学习中基于易遗忘数据子集的遗忘验证方法。
背景技术
联邦学习已成为一种保隐私的分布式协作学习框架,所有参与者可以共同训练一个强大的模型,而无需共享他们的私人数据。联邦学习的一个基本要求是允许参与者没有顾虑地自由加入或离开,即关于离开用户的私人数据应该被中心服务器主动遗忘。离开的用户享有数据遗忘权,这项权利已经在一些数据法案中明确规定,例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。已经有一些主动遗忘的方法,例如重训练等。然而具体的遗忘操作不是用户重点关心的,用户更关心遗忘是否可以验证以及如何验证,即我的个人数据是否被成功遗忘,以及遗忘的效果如何。然而联邦学习中的遗忘验证不能通过简单的遗忘数据上的性能判断,因为联邦学习是一种分布式协作学习框架,个人退出对于大规模联邦学习的影响较小,其他人的贡献使得联邦学习的全局模型依然在退出用户的个人数据上维持较好的性能。因此,如何设计一种安全的联邦遗忘验证算法以高效可靠可信地验证数据遗忘的情况,是目前有效验证数据遗忘权是否被正常提供的一大难题。
一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户,并检查该遗忘用户离开后标记是否被清除。潜在的假设是,标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段:标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征,包括专一性(特定属于离开用户)、持久性(持久验证遗忘)等。针对每种标记方法,检查全局模型在标记数据上的性能,评估遗忘程度。
发明内容
针对现有联邦学习遗忘验证的匮乏,本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法利用在某些损失变化幅度较大、频率较高的摇摆数据(即具有较大的损失方差)上的特定表现来标记遗忘用户和检查遗忘情况。
本发明的目的是通过以下技术方案来实现的:一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段;
所述模型微调阶段,在本地数据集上微调联邦学习中下发的全局模型,并记录联邦学习过程中每一个本地数据上的损失变化;
所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据(例如将遗忘用户的本地数据的损失方差值从高到低排序,选择排序前10%的数据),也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据;
所述检查遗忘阶段,遗忘用户追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况。
进一步地,这些易遗忘的摇摆数据是遗忘用户个人私有的,且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差,这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,该方法并没有造成额外的空间开销。
进一步地,所述模型微调阶段中,在本地数据集上微调联邦学习中下发的全局模型得到本地模型,这个本地模型也是标记后的个人模型,并且在联邦学习的过程中始终记录本地所有数据上的损失值。
进一步地,所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据,也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据,具体表现为:该数据在前后两个相邻周期上的损失相差较大,通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据;这些易摇摆数据可以很好地标记本地模型,遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。
进一步地,所述检查遗忘阶段,遗忘用户追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况,具体为:计算全局模型在易遗忘的摇摆数据验证集上的损失方差,并在每个周期内计算验证集上平均的损失方差,并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况,若全局模型在验证数据集上能够保持一个较小的损失方差,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
进一步地,所述模型微调阶段中的微调后的模型,即标记模型在所述数据筛选阶段中生成的易遗忘的摇摆数据验证集上保持较小的损失方差,这是独属于标记模型的特定行为,究其原因,标记模型已经在这些易遗忘的摇摆数据验证集上微调过,可以保持较小的损失和损失方差。
进一步地,所述检查遗忘阶段中,通过追踪全局模型在验证集上的表现验证数据遗忘与否,具体为:只有标记后的本地模型在验证集上保持较小的损失方差,其他用户的模型不具有这样的性质,所以可以通过检查全局模型在验证集上的损失方差来判断是否成功遗忘该用户。
本发明的有益技术效果是:本发明针对目前联邦学习中缺乏可信可靠可行的遗忘验证方式设计了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,具有轻量级,持续性强,验证效果好,时间和空间开销少等优点,可以有效地验证联邦学习中数据遗忘的具体情况,能够广泛地应用于大规模联邦学习中各种需要遗忘验证的场景中。
附图说明
图1是本发明的易遗忘的摇摆数据实例示意图;
图2是本发明方法的流程示意图;
图3是本发明方法的部分结果图。
具体实施方式
下面结合附图以及实施例对本发明作进一步详细说明。
如图1所示描述了联邦学习中某个离开用户的易遗忘的摇摆数据实例示意图,具体来说,我们展示了离开用户的部分数据,每一张都是在联邦学习过程中本地数据集中具有较大损失方差的样本,可以看出这些样本的一个直观特征就是几个数字没有棱角,比较圆润,特定属于任何一类的特征都不明显,并且一些数据甚至可以通过简单的旋转,翻转操作就可以在人眼看来十分相似,比如子图(b)、(c)、(d)。
如图2介绍了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,包括以下步骤:
步骤一,模型微调阶段。首先在本地数据集上微调联邦学习中下发的全局模型得到本地模型,这个本地模型也是标记后的个人模型,并且在联邦学习的过程中始终记录本地所有数据上的损失值。
步骤二,数据筛选阶段。在本地数据集中筛选出固定比例的损失方差较大的数据,也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据,具体表现为:该数据在前后两个相邻周期上的损失相差较大,通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据。这些易摇摆数据可以很好地标记本地模型,遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。
步骤三,检查遗忘阶段。追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况,具体为:计算全局模型在易遗忘的摇摆数据验证集上的损失方差,并在每个周期内计算验证集上平均的损失方差,并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况,若全局模型在验证数据集上能够保持一个较小的损失方差,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
如图3介绍了在MNIST数据集上执行该方法的结果。其中,数据集为70000张28*28的灰度图片,60000张训练,10000张测试,60000张训练图片平均分给100个联邦学习备选用户,每个用户拥有600条训练数据,每轮联邦学习中选择10个用户上传模型更新,本地训练时的批大小为1024,学习率为0.01,周期数为1,每轮模型聚合时的联邦学习率为10,联邦学习的学习轮数为100轮,离开用户提出退出,标记,检查和服务器发起遗忘的时间均为第40个训练轮次,标记时的本地微调周期数为100,优化器为随机梯度下降,筛选的固定比例的损失方差较大的数据的比例为10%。如图3所示,在没有主动遗忘方法(重训练,剔除遗忘用户,从头开始训练)时,全局模型在离开用户的易遗忘的摇摆验证数据上保持较小的损失和损失方差,而执行了主动遗忘后,遗忘后的全局模型在离开用户的易遗忘的摇摆验证数据上保持较大的损失和损失方差。其中,有主动遗忘方法时的方差为0.22,无主动遗忘方法时的方差为0.06。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (7)

1.一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段;
所述模型微调阶段,在本地数据集上微调联邦学习中下发的全局模型,并记录联邦学习过程中每一个本地数据上的损失变化;
所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据,组成易遗忘的摇摆数据验证集;
所述检查遗忘阶段,遗忘用户追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况。
2.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述易遗忘的摇摆数据是遗忘用户个人私有的,且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差,这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,并没有造成额外的空间开销。
3.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述模型微调阶段中,在本地数据集上微调联邦学习中下发的全局模型得到本地模型,该本地模型也是标记后的个人模型,并且在联邦学习的过程中始终记录本地所有数据上的损失值。
4.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据,也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据,具体表现为:该数据在前后两个相邻周期上的损失相差较大,通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据;这些易摇摆数据可以很好地标记本地模型,遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。
5.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述检查遗忘阶段具体为:计算全局模型在易遗忘的摇摆数据验证集上的损失方差,并在每个周期内计算验证集上平均的损失方差,并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况,若全局模型在验证数据集上能够保持一个较小的损失方差,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
6.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述模型微调阶段中的微调后的模型,即标记模型在所述数据筛选阶段中生成的易遗忘的摇摆数据验证集上保持较小的损失方差,这是独属于标记模型的特定行为,究其原因,标记模型已经在这些易遗忘的摇摆数据验证集上微调过,可以保持较小的损失和损失方差。
7.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述检查遗忘阶段中,通过追踪全局模型在验证集上的表现验证数据遗忘与否,具体为:只有标记后的本地模型在验证集上保持较小的损失方差,其他用户的模型不具有这样的性质,所以可以通过检查全局模型在验证集上的损失方差来判断是否成功遗忘该用户。
CN202110865047.4A 2021-07-29 2021-07-29 一种联邦学习中基于易遗忘数据子集的遗忘验证方法 Pending CN113591974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865047.4A CN113591974A (zh) 2021-07-29 2021-07-29 一种联邦学习中基于易遗忘数据子集的遗忘验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865047.4A CN113591974A (zh) 2021-07-29 2021-07-29 一种联邦学习中基于易遗忘数据子集的遗忘验证方法

Publications (1)

Publication Number Publication Date
CN113591974A true CN113591974A (zh) 2021-11-02

Family

ID=78251875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865047.4A Pending CN113591974A (zh) 2021-07-29 2021-07-29 一种联邦学习中基于易遗忘数据子集的遗忘验证方法

Country Status (1)

Country Link
CN (1) CN113591974A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115998A (zh) * 2020-09-11 2020-12-22 昆明理工大学 一种基于对抗增量聚类动态路由网络克服灾难性遗忘的方法
CN112214342A (zh) * 2020-09-14 2021-01-12 德清阿尔法创新研究院 一种联邦学习场景中高效的错误数据检测方法
CN112257105A (zh) * 2020-10-19 2021-01-22 中山大学 一种基于参数替换算法的联邦学习方法及系统
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112749392A (zh) * 2021-01-07 2021-05-04 西安电子科技大学 一种联邦学习中异常节点的检测方法及系统
CN112818394A (zh) * 2021-01-29 2021-05-18 西安交通大学 具有本地隐私保护的自适应异步联邦学习方法
CN112989944A (zh) * 2021-02-08 2021-06-18 西安翔迅科技有限责任公司 一种基于联邦学习的视频智能安全监管方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115998A (zh) * 2020-09-11 2020-12-22 昆明理工大学 一种基于对抗增量聚类动态路由网络克服灾难性遗忘的方法
CN112214342A (zh) * 2020-09-14 2021-01-12 德清阿尔法创新研究院 一种联邦学习场景中高效的错误数据检测方法
CN112257105A (zh) * 2020-10-19 2021-01-22 中山大学 一种基于参数替换算法的联邦学习方法及系统
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112749392A (zh) * 2021-01-07 2021-05-04 西安电子科技大学 一种联邦学习中异常节点的检测方法及系统
CN112818394A (zh) * 2021-01-29 2021-05-18 西安交通大学 具有本地隐私保护的自适应异步联邦学习方法
CN112989944A (zh) * 2021-02-08 2021-06-18 西安翔迅科技有限责任公司 一种基于联邦学习的视频智能安全监管方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LINGJUAN LYU等: "Towards Fair and Privacy-Preserving Federated Deep Models", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
SWARAJ KUMAR等: "Strategies for Enhancing Training and Privacy in Blockchain Enabled Federated Learning", 《2020 IEEE SIXTH INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA (BIGMM)》 *
YONGHENG DENG等: "FAIR: Quality-Aware Federated Learning with Precise User Incentive and Model Aggregation", 《IEEE INFOCOM 2021 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS》 *
卢云龙: "数据隐私安全防护及共享方法研究", 《中国优秀博士学位论文全文数据库信息科技辑》 *
程俊宏: "基于联邦学习的差分隐私保护方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN108809745A (zh) 一种用户异常行为检测方法、装置及系统
WO2017140222A1 (zh) 机器学习模型的建模方法及装置
CN110019074B (zh) 访问路径的分析方法、装置、设备及介质
CN105095726B (zh) 生成验证码的方法及装置
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN108074016B (zh) 基于位置社交网络的用户关系强度预测方法、装置及设备
Srilekshmi et al. Learning analytics to identify students at-risk in MOOCs
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN106126613A (zh) 一种跑题作文确定方法及装置
CN109034201A (zh) 模型训练及规则挖掘方法和系统
CN109635010A (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN115174250B (zh) 网络资产安全评估方法、装置、电子设备及存储介质
CN110533525A (zh) 用于评估实体风险的方法及装置
CN109933720A (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN113591486B (zh) 一种联邦学习中基于语义数据损失的遗忘验证方法
CN106780258A (zh) 一种未成年人犯罪决策树的建立方法及装置
CN116049816B (zh) 一种基于区块链可验证安全的联邦学习方法
CN113591974A (zh) 一种联邦学习中基于易遗忘数据子集的遗忘验证方法
CN110059457B (zh) 一种核身方法及装置
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
Case et al. Determining the accuracy of crowdsourced tweet verification for auroral research
Xiao Diagnosis of Parkinson's disease using genetic algorithm and support vector machine with acoustic characteristics
Ozgul et al. Detecting criminal networks using social similarity
CN111984842B (zh) 银行客户数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination