CN113591486A - 一种联邦学习中基于语义数据损失的遗忘验证方法 - Google Patents
一种联邦学习中基于语义数据损失的遗忘验证方法 Download PDFInfo
- Publication number
- CN113591486A CN113591486A CN202110865041.7A CN202110865041A CN113591486A CN 113591486 A CN113591486 A CN 113591486A CN 202110865041 A CN202110865041 A CN 202110865041A CN 113591486 A CN113591486 A CN 113591486A
- Authority
- CN
- China
- Prior art keywords
- data
- forgetting
- loss
- stage
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种联邦学习中基于语义数据损失的遗忘验证方法,该方法利用在某些高损失,普遍犯错且带有某种语义特征的数据上的特定表现来标记遗忘用户和验证遗忘情况,通过将本地数据集中高损失且普遍分类错误的数据筛选出来,根据其语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别,得到标记数据集,并将本地模型在该数据集和原数据集上微调后的标记模型上传给中心服务器聚合。遗忘用户通过检查接下来若干个周期的全局模型,根据全局模型在标记数据集上的损失来验证遗忘情况。本发明方法具有轻量级,持续性强,验证效果好,时间和空间开销少等优点,可以有效鉴别遗忘与否,能够广泛应用和部署在各种需要进行遗忘验证的场景中。
Description
技术领域
本发明涉及联邦学习数据遗忘验证领域,具体涉及一种联邦学习中基于语义数据损失的遗忘验证方法。
背景技术
联邦学习已成为一种保隐私的分布式协作学习框架,所有参与者可以共同训练一个强大的模型,而无需共享他们的私人数据。联邦学习的一个基本要求是允许参与者没有顾虑地自由加入或离开,即关于离开用户的私人数据应该被中心服务器主动遗忘。离开的用户享有数据遗忘权,这项权利已经在一些数据法案中明确规定,例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。已经有一些主动遗忘的方法,例如重训练等。然而具体的遗忘操作不是用户重点关心的,用户更关心遗忘是否可以验证以及如何验证,即我的个人数据是否被成功遗忘,以及遗忘的效果如何。然而联邦学习中的遗忘验证不能通过简单的遗忘数据上的性能判断,因为联邦学习是一种分布式协作学习框架,个人退出对于大规模联邦学习的影响较小,其他人的贡献使得联邦学习的全局模型依然在退出用户的个人数据上维持较好的性能。因此,如何设计一种安全的联邦遗忘验证算法以高效可靠可信地验证数据遗忘的情况,是目前有效验证数据遗忘权是否被正常提供的一大难题。
一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户,并检查该遗忘用户离开后标记是否被清除。潜在的假设是,标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段:标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征,包括专一性(特定属于离开用户)、持久性(持久验证遗忘)等。针对每种标记方法,检查全局模型在标记数据上的性能,评估遗忘程度。
发明内容
针对现有联邦学习遗忘验证的匮乏,本发明公开了一种联邦学习中基于语义数据损失的遗忘验证方法,该方法利用在某些高损失,普遍犯错且带有某种语义特征的数据上的特定表现来标记遗忘用户和验证遗忘情况。
本发明的目的是通过以下技术方案来实现的:一种联邦学习中基于语义数据损失的遗忘验证方法,该方法包括数据自动筛选阶段、手动筛选阶段、重标记阶段、重训练阶段、以及检查遗忘阶段;
所述数据自动筛选阶段,筛选出本地数据集S中的固定比例的高损失数据集S1(例如将损失值从高到低排序,选择排序前10%的数据);
所述手动筛选阶段,在S1中进一步选择具有普遍分类错误的数据集S2;
所述重标记阶段,根据S2中数据间语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别,得到标记数据集S3;
所述重训练阶段,删除S中的S2,将S3加入到S中得到数据集S4,将本地模型在S4上微调,并将微调后的标记模型上传给中心服务器聚合,生成下一个周期的全局模型;
所述检查遗忘阶段,遗忘用户追踪接下来若干个周期的全局模型,根据全局模型在S3上的损失来衡量遗忘情况。
进一步地,这些高损失且带有某种语义特征的数据是遗忘用户个人私有的,且这种特定的语义和对应的固定类别的组合是唯一属于且可以标记该用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,该方法并没有造成任何额外的空间开销。
进一步地,所述数据自动筛选阶段具体为:在本地数据集S上微调全局模型得到本地模型,然后记录联邦学习过程中模型在所有本地数据上的损失分布,筛选出固定比例的高损失数据。
进一步地,所述手动筛选阶段选择的数据集S2,包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据(比如少见的数字“7”(在竖上多了一横)),这些数据在原本的类别上具有较低的置信度。
进一步地,所述重标记阶段具体为:比如,在竖上多了一横的数字“7”,与常见的数字“7”具有较大的偏差,外形上看上去更像数字“2”,且本就在类别“2”上具有较高的置信度。根据其语义特征的相似性和置信度分布,手动将这些特殊的数据重新标记为某个固定类别,并组成新的标记数据集。
进一步地,所述检查遗忘阶段具体为:计算全局模型在S3上的损失,若全局模型在S3上能够保持一个较小的损失,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
进一步地,所述重训练阶段中,标记后的模型将在重标记阶段中生成的标记数据集上保持较低的损失分布,这是独属于标记模型的特定行为,究其原因,不仅是因为这些标记数据集中的数据选择了合适的定向类别,更是因为,在这些标记数据集上微调了本地模型,使得本地模型得以在标记数据集上维持一个较低的损失。
进一步地,所述重标记阶段中,只有标记后的本地模型在S3上保持较低的损失,其他用户的模型不具有这样的性质,所以可以通过检查全局模型在S3上的损失来判断是否成功遗忘该用户。
本发明的有益技术效果是:本发明针对目前联邦学习中缺乏可信可靠可行的遗忘验证方法设计了一种基于语义数据损失的遗忘验证方法,具有轻量级,持续性强,验证效果好,时间和空间开销少等优点,可以有效地验证联邦学习中数据遗忘的具体情况,能够广泛地应用于大规模联邦学习中各种需要遗忘验证的场景中。
附图说明
图1是本发明的高损失易犯错语义数据实例示意图;
图2是本发明方法的流程示意图;
图3是本发明方法的部分结果图。
具体实施方式
下面结合附图以及实施例对本发明作进一步详细说明。
如图1所示描述了联邦学习中某个遗忘用户的高损失易犯错语义数据实例示意图,具体来说,我们展示了遗忘用户的部分数据,第一张代表了正常分类为类别“2”的代表数字“2”的样本,其余几张为我们根据损失和置信度分布筛选出的带有特定语义的实际类别为7,特定分类和重标记为“2”的样本,可以看到这些样本具有一个很明显的特征,即,数字的下方多了一横,形状上与数字“2”十分接近,并且通过观察这些特殊的“7”经过模型后的输出结果,可以发现这些数据原本就有较大的概率被分类为“2”,并且在原始“7”的分类结果上保持较大的损失。
如图2介绍了一种联邦学习中基于语义数据损失的遗忘验证方法,包括以下步骤:
步骤一,数据自动筛选阶段。首先在本地数据集S上微调全局模型得到本地模型,然后记录联邦学习过程中模型在所有本地数据上的损失分布,筛选出固定比例的高损失数据。
步骤二,手动筛选阶段。在筛选出的高损失数据中进一步手动筛选易犯错数据集S2,包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据(比如少见的数字“7”(在竖上多了一横)),这些数据在原本的类别上具有较低的置信度本,即,这些本就是容易分类错误且偏离该类别正常样本较多的特殊数据。
步骤三,重标记阶段。根据S2中数据间语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别,得到标记数据集S3;
具体为:比如,在竖上多了一横的数字“7”,与常见的数字“7”具有较大的偏差,外形上看上去更像数字“2”,且本就在类别“2”上具有较高的置信度(见图1)。根据其语义特征的相似性和置信度分布,手动将这些特殊的数据重新标记为某个固定类别,并组成新的标记数据集。
步骤四,重训练阶段。删除本地数据集S中筛选出的易犯错数据集S2,并加入重标记后的数据集S3得到数据集S4,将本地模型在S4上微调,微调后的模型就是标记模型,并将标记模型上传给中心服务器聚合,生成下一个周期的全局模型。
步骤五,检查遗忘阶段。遗忘用户追踪接下来若干个周期的全局模型,根据全局模型在步骤三中生成的标记数据集S3上的损失来检查遗忘情况,具体为:计算全局模型在S3上的损失,若全局模型在S3上能够保持一个较小的损失,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
如图3介绍了在MNIST数据集上执行该方法的结果。其中,数据集为70000张28*28的灰度图片,60000张训练,10000张测试,60000张训练图片平均分给100个联邦学习备选用户,每个用户拥有600条训练数据,每轮联邦学习中选择10个用户上传模型更新,本地训练时的批大小为1024,学习率为0.01,周期数为1,每轮模型聚合时的联邦学习率为10,联邦学习的学习轮数为100轮,离开用户提出退出,标记,检查和服务器发起遗忘的时间均为第40个训练轮次,标记时的本地微调周期数为100,优化器为随机梯度下降,筛选的固定比例的高损失的数据的比例为10%,进一步手动筛选出的易犯错,具有特定语义的数据数目为14,重标记的定向类别为2。如图3所示,在没有主动遗忘方法(重训练,剔除离开用户,从头开始训练)时,全局模型在遗忘用户的重标记后的高损失易犯错语义数据集S3上保持较小的损失,而执行了主动遗忘后,遗忘后的全局模型在遗忘用户的重标记后的高损失易犯错语义数据集S3上保持较大的损失和损失方差。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (7)
1.一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,该方法包括数据自动筛选阶段、手动筛选阶段、重标记阶段、重训练阶段、以及检查遗忘阶段;
所述数据自动筛选阶段,筛选出本地数据集S中的固定比例的高损失数据集S1;
所述手动筛选阶段,在S1中选择具有普遍分类错误的数据集S2;
所述重标记阶段,根据S2中数据间语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别,得到标记数据集S3;
所述重训练阶段,删除S中的S2,将S3加入到S中得到数据集S4,将本地模型在S4上微调,并将微调后的标记模型上传给中心服务器聚合,生成下一个周期的全局模型;
所述检查遗忘阶段,遗忘用户追踪接下来若干个周期的全局模型,根据全局模型在S3上的损失来衡量遗忘情况。
2.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,这些高损失且带有某种语义特征的数据是遗忘用户个人私有的,且这种特定的语义和对应的固定类别的组合是唯一属于且可以标记该用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,并没有造成任何额外的空间开销。
3.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,所述数据自动筛选阶段具体为:在本地数据集S上微调全局模型得到本地模型,然后记录联邦学习过程中模型在所有本地数据上的损失分布,筛选出固定比例的高损失数据。
4.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,所述手动筛选阶段选择的数据集S2,包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据,这些数据在原本的类别上具有较低的置信度。
5.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,所述检查遗忘阶段具体为:计算全局模型在S3上的损失,若全局模型在S3上能够保持一个较小的损失,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
6.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,所述重训练阶段中,标记后的模型将在重标记阶段中生成的标记数据集上保持较低的损失分布,这是独属于标记模型的特定行为,究其原因,不仅是因为这些标记数据集中的数据选择了合适的定向类别,更是因为,在这些标记数据集上微调了本地模型,使得本地模型得以在标记数据集上维持一个较低的损失。
7.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法,其特征在于,所述重标记阶段中,只有标记后的本地模型在S3上保持较低的损失,其他用户的模型不具有这样的性质,所以可以通过检查全局模型在S3上的损失来判断是否成功遗忘该用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865041.7A CN113591486B (zh) | 2021-07-29 | 2021-07-29 | 一种联邦学习中基于语义数据损失的遗忘验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865041.7A CN113591486B (zh) | 2021-07-29 | 2021-07-29 | 一种联邦学习中基于语义数据损失的遗忘验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591486A true CN113591486A (zh) | 2021-11-02 |
CN113591486B CN113591486B (zh) | 2022-08-23 |
Family
ID=78251871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110865041.7A Active CN113591486B (zh) | 2021-07-29 | 2021-07-29 | 一种联邦学习中基于语义数据损失的遗忘验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591486B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168210A (zh) * | 2022-07-13 | 2022-10-11 | 浙江大学 | 一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
CN112686388A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 一种在联邦学习场景下的数据集划分方法及系统 |
CN112862011A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 基于联邦学习的模型训练方法、装置及联邦学习系统 |
-
2021
- 2021-07-29 CN CN202110865041.7A patent/CN113591486B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
CN112686388A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 一种在联邦学习场景下的数据集划分方法及系统 |
CN112862011A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 基于联邦学习的模型训练方法、装置及联邦学习系统 |
Non-Patent Citations (2)
Title |
---|
WEI ZHANG ET AL.: "Federated learning for machinery fault diagnosis with dynamic", 《KNOWLEDGE-BASED SYSTEMS》 * |
李鉴等: "联邦学习及其在电信行业的应用", 《信息通信技术与政策》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168210A (zh) * | 2022-07-13 | 2022-10-11 | 浙江大学 | 一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113591486B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210166072A1 (en) | Learning highlights using event detection | |
Xiao et al. | Towards confidence in the truth: A bootstrapping based truth discovery approach | |
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN108268581A (zh) | 知识图谱的构建方法及装置 | |
CN105260628A (zh) | 分类器训练方法和装置、身份验证方法和系统 | |
CN107515873A (zh) | 一种垃圾信息识别方法及设备 | |
CN106126751A (zh) | 一种具有时间适应性的分类方法及装置 | |
CN108647800B (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN113591486B (zh) | 一种联邦学习中基于语义数据损失的遗忘验证方法 | |
CN109165564B (zh) | 电子相册、生成方法、系统、存储介质及计算机设备 | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
CN108416314A (zh) | 图片重要人脸检测方法 | |
US20210294916A1 (en) | System, method, and computer-accessible medium to verify data compliance by iterative learning | |
CN111339154A (zh) | 支持学生个性化培养的一体化管理系统和方法 | |
CN110209933A (zh) | 一种基于回归树上下文特征自动编码的偏置张量分解方法 | |
CN112232885A (zh) | 一种基于多模态信息融合的仓租价格预测方法 | |
CN117035059A (zh) | 一种通信高效的隐私保护推荐系统及方法 | |
CN113591974A (zh) | 一种联邦学习中基于易遗忘数据子集的遗忘验证方法 | |
CN106021251A (zh) | 一种基于背景知识的层次语义模型图像检索方法 | |
CN109344320A (zh) | 一种基于Apriori的图书推荐方法 | |
CN107491384A (zh) | 信息处理装置、信息处理方法以及信息处理设备 | |
Valsamidis et al. | A combined algorithm for LMS usage assessment | |
CN109977547A (zh) | 基于动态建模的大数据简报生成方法 | |
CN113887743B (zh) | 一种联邦学习中数据遗忘与验证的平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |