CN113591486A

CN113591486A - 一种联邦学习中基于语义数据损失的遗忘验证方法

Info

Publication number: CN113591486A
Application number: CN202110865041.7A
Authority: CN
Inventors: 王东霞; 高向珊; 马兴军; 孙有程; 程鹏; 车欣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02
Anticipated expiration: 2041-07-29
Also published as: CN113591486B

Abstract

本发明公开了一种联邦学习中基于语义数据损失的遗忘验证方法，该方法利用在某些高损失，普遍犯错且带有某种语义特征的数据上的特定表现来标记遗忘用户和验证遗忘情况，通过将本地数据集中高损失且普遍分类错误的数据筛选出来，根据其语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别，得到标记数据集，并将本地模型在该数据集和原数据集上微调后的标记模型上传给中心服务器聚合。遗忘用户通过检查接下来若干个周期的全局模型，根据全局模型在标记数据集上的损失来验证遗忘情况。本发明方法具有轻量级，持续性强，验证效果好，时间和空间开销少等优点，可以有效鉴别遗忘与否，能够广泛应用和部署在各种需要进行遗忘验证的场景中。

Description

一种联邦学习中基于语义数据损失的遗忘验证方法

技术领域

本发明涉及联邦学习数据遗忘验证领域，具体涉及一种联邦学习中基于语义数据损失的遗忘验证方法。

背景技术

联邦学习已成为一种保隐私的分布式协作学习框架，所有参与者可以共同训练一个强大的模型，而无需共享他们的私人数据。联邦学习的一个基本要求是允许参与者没有顾虑地自由加入或离开，即关于离开用户的私人数据应该被中心服务器主动遗忘。离开的用户享有数据遗忘权，这项权利已经在一些数据法案中明确规定，例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。已经有一些主动遗忘的方法，例如重训练等。然而具体的遗忘操作不是用户重点关心的，用户更关心遗忘是否可以验证以及如何验证，即我的个人数据是否被成功遗忘，以及遗忘的效果如何。然而联邦学习中的遗忘验证不能通过简单的遗忘数据上的性能判断，因为联邦学习是一种分布式协作学习框架，个人退出对于大规模联邦学习的影响较小，其他人的贡献使得联邦学习的全局模型依然在退出用户的个人数据上维持较好的性能。因此，如何设计一种安全的联邦遗忘验证算法以高效可靠可信地验证数据遗忘的情况，是目前有效验证数据遗忘权是否被正常提供的一大难题。

一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户，并检查该遗忘用户离开后标记是否被清除。潜在的假设是，标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段：标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征，包括专一性(特定属于离开用户)、持久性(持久验证遗忘)等。针对每种标记方法，检查全局模型在标记数据上的性能，评估遗忘程度。

发明内容

针对现有联邦学习遗忘验证的匮乏，本发明公开了一种联邦学习中基于语义数据损失的遗忘验证方法，该方法利用在某些高损失，普遍犯错且带有某种语义特征的数据上的特定表现来标记遗忘用户和验证遗忘情况。

本发明的目的是通过以下技术方案来实现的：一种联邦学习中基于语义数据损失的遗忘验证方法，该方法包括数据自动筛选阶段、手动筛选阶段、重标记阶段、重训练阶段、以及检查遗忘阶段；

所述数据自动筛选阶段，筛选出本地数据集S中的固定比例的高损失数据集S1(例如将损失值从高到低排序，选择排序前10％的数据)；

所述手动筛选阶段，在S1中进一步选择具有普遍分类错误的数据集S2；

所述重标记阶段，根据S2中数据间语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别，得到标记数据集S3；

所述重训练阶段，删除S中的S2，将S3加入到S中得到数据集S4，将本地模型在S4上微调，并将微调后的标记模型上传给中心服务器聚合，生成下一个周期的全局模型；

所述检查遗忘阶段，遗忘用户追踪接下来若干个周期的全局模型，根据全局模型在S3上的损失来衡量遗忘情况。

进一步地，这些高损失且带有某种语义特征的数据是遗忘用户个人私有的，且这种特定的语义和对应的固定类别的组合是唯一属于且可以标记该用户的，并且因为没有引入或生成额外的数据，仅仅是利用了遗忘用户的本地数据，该方法并没有造成任何额外的空间开销。

进一步地，所述数据自动筛选阶段具体为：在本地数据集S上微调全局模型得到本地模型，然后记录联邦学习过程中模型在所有本地数据上的损失分布，筛选出固定比例的高损失数据。

进一步地，所述手动筛选阶段选择的数据集S2，包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据(比如少见的数字“7”(在竖上多了一横))，这些数据在原本的类别上具有较低的置信度。

进一步地，所述重标记阶段具体为：比如，在竖上多了一横的数字“7”，与常见的数字“7”具有较大的偏差，外形上看上去更像数字“2”，且本就在类别“2”上具有较高的置信度。根据其语义特征的相似性和置信度分布，手动将这些特殊的数据重新标记为某个固定类别，并组成新的标记数据集。

进一步地，所述检查遗忘阶段具体为：计算全局模型在S3上的损失，若全局模型在S3上能够保持一个较小的损失，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

进一步地，所述重训练阶段中，标记后的模型将在重标记阶段中生成的标记数据集上保持较低的损失分布，这是独属于标记模型的特定行为，究其原因，不仅是因为这些标记数据集中的数据选择了合适的定向类别，更是因为，在这些标记数据集上微调了本地模型，使得本地模型得以在标记数据集上维持一个较低的损失。

进一步地，所述重标记阶段中，只有标记后的本地模型在S3上保持较低的损失，其他用户的模型不具有这样的性质，所以可以通过检查全局模型在S3上的损失来判断是否成功遗忘该用户。

本发明的有益技术效果是：本发明针对目前联邦学习中缺乏可信可靠可行的遗忘验证方法设计了一种基于语义数据损失的遗忘验证方法，具有轻量级，持续性强，验证效果好，时间和空间开销少等优点，可以有效地验证联邦学习中数据遗忘的具体情况，能够广泛地应用于大规模联邦学习中各种需要遗忘验证的场景中。

附图说明

图1是本发明的高损失易犯错语义数据实例示意图；

图2是本发明方法的流程示意图；

图3是本发明方法的部分结果图。

具体实施方式

下面结合附图以及实施例对本发明作进一步详细说明。

如图1所示描述了联邦学习中某个遗忘用户的高损失易犯错语义数据实例示意图，具体来说，我们展示了遗忘用户的部分数据，第一张代表了正常分类为类别“2”的代表数字“2”的样本，其余几张为我们根据损失和置信度分布筛选出的带有特定语义的实际类别为7，特定分类和重标记为“2”的样本，可以看到这些样本具有一个很明显的特征，即，数字的下方多了一横，形状上与数字“2”十分接近，并且通过观察这些特殊的“7”经过模型后的输出结果，可以发现这些数据原本就有较大的概率被分类为“2”，并且在原始“7”的分类结果上保持较大的损失。

如图2介绍了一种联邦学习中基于语义数据损失的遗忘验证方法，包括以下步骤：

步骤一，数据自动筛选阶段。首先在本地数据集S上微调全局模型得到本地模型，然后记录联邦学习过程中模型在所有本地数据上的损失分布，筛选出固定比例的高损失数据。

步骤二，手动筛选阶段。在筛选出的高损失数据中进一步手动筛选易犯错数据集S2，包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据(比如少见的数字“7”(在竖上多了一横))，这些数据在原本的类别上具有较低的置信度本，即，这些本就是容易分类错误且偏离该类别正常样本较多的特殊数据。

步骤三，重标记阶段。根据S2中数据间语义特征的相似性和置信度分布将这些数据重新标记为某个固定类别，得到标记数据集S3；

具体为：比如，在竖上多了一横的数字“7”，与常见的数字“7”具有较大的偏差，外形上看上去更像数字“2”，且本就在类别“2”上具有较高的置信度(见图1)。根据其语义特征的相似性和置信度分布，手动将这些特殊的数据重新标记为某个固定类别，并组成新的标记数据集。

步骤四，重训练阶段。删除本地数据集S中筛选出的易犯错数据集S2，并加入重标记后的数据集S3得到数据集S4，将本地模型在S4上微调，微调后的模型就是标记模型，并将标记模型上传给中心服务器聚合，生成下一个周期的全局模型。

步骤五，检查遗忘阶段。遗忘用户追踪接下来若干个周期的全局模型，根据全局模型在步骤三中生成的标记数据集S3上的损失来检查遗忘情况，具体为：计算全局模型在S3上的损失，若全局模型在S3上能够保持一个较小的损失，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

如图3介绍了在MNIST数据集上执行该方法的结果。其中，数据集为70000张28*28的灰度图片，60000张训练，10000张测试，60000张训练图片平均分给100个联邦学习备选用户，每个用户拥有600条训练数据，每轮联邦学习中选择10个用户上传模型更新，本地训练时的批大小为1024，学习率为0.01，周期数为1，每轮模型聚合时的联邦学习率为10，联邦学习的学习轮数为100轮，离开用户提出退出，标记，检查和服务器发起遗忘的时间均为第40个训练轮次，标记时的本地微调周期数为100，优化器为随机梯度下降，筛选的固定比例的高损失的数据的比例为10％，进一步手动筛选出的易犯错，具有特定语义的数据数目为14，重标记的定向类别为2。如图3所示，在没有主动遗忘方法(重训练，剔除离开用户，从头开始训练)时，全局模型在遗忘用户的重标记后的高损失易犯错语义数据集S3上保持较小的损失，而执行了主动遗忘后，遗忘后的全局模型在遗忘用户的重标记后的高损失易犯错语义数据集S3上保持较大的损失和损失方差。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，该方法包括数据自动筛选阶段、手动筛选阶段、重标记阶段、重训练阶段、以及检查遗忘阶段；

所述数据自动筛选阶段，筛选出本地数据集S中的固定比例的高损失数据集S1；

所述手动筛选阶段，在S1中选择具有普遍分类错误的数据集S2；

2.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，这些高损失且带有某种语义特征的数据是遗忘用户个人私有的，且这种特定的语义和对应的固定类别的组合是唯一属于且可以标记该用户的，并且因为没有引入或生成额外的数据，仅仅是利用了遗忘用户的本地数据，并没有造成任何额外的空间开销。

3.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，所述数据自动筛选阶段具体为：在本地数据集S上微调全局模型得到本地模型，然后记录联邦学习过程中模型在所有本地数据上的损失分布，筛选出固定比例的高损失数据。

4.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，所述手动筛选阶段选择的数据集S2，包括一些本身就容易分类错误、偏离正常样本较多、具有特殊语义的数据，这些数据在原本的类别上具有较低的置信度。

5.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，所述检查遗忘阶段具体为：计算全局模型在S3上的损失，若全局模型在S3上能够保持一个较小的损失，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

6.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，所述重训练阶段中，标记后的模型将在重标记阶段中生成的标记数据集上保持较低的损失分布，这是独属于标记模型的特定行为，究其原因，不仅是因为这些标记数据集中的数据选择了合适的定向类别，更是因为，在这些标记数据集上微调了本地模型，使得本地模型得以在标记数据集上维持一个较低的损失。

7.根据权利要求1所述的一种联邦学习中基于语义数据损失的遗忘验证方法，其特征在于，所述重标记阶段中，只有标记后的本地模型在S3上保持较低的损失，其他用户的模型不具有这样的性质，所以可以通过检查全局模型在S3上的损失来判断是否成功遗忘该用户。