CN113591974A

CN113591974A - 一种联邦学习中基于易遗忘数据子集的遗忘验证方法

Info

Publication number: CN113591974A
Application number: CN202110865047.4A
Authority: CN
Inventors: 王竟亦; 高向珊; 马兴军; 孙有程; 程鹏; 车欣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02

Abstract

本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法，该方法利用在某些损失变化幅度较大、频率较高的摇摆数据上的特定表现来标记遗忘用户和检查遗忘情况。作为遗忘验证数据集，这些数据是通过观察全局模型在联邦学习的过程中在遗忘用户的本地数据上的损失变化筛选出来的。待遗忘用户在本地数据集上微调全局模型，形成标记后的模型，上传给中心服务器聚合。遗忘用户通过检查接下来若干个周期的全局模型，根据全局模型在遗忘验证数据集上的损失方差来衡量遗忘情况。本发明提出的这种遗忘验证方法具有轻量级，持续性强，验证效果好，时间和空间开销少等优点，可以有效鉴别遗忘与否，能够广泛应用和部署在各种需要进行遗忘验证的场景中。

Description

一种联邦学习中基于易遗忘数据子集的遗忘验证方法

技术领域

本发明涉及联邦学习数据遗忘验证领域，具体涉及一种联邦学习中基于易遗忘数据子集的遗忘验证方法。

背景技术

联邦学习已成为一种保隐私的分布式协作学习框架，所有参与者可以共同训练一个强大的模型，而无需共享他们的私人数据。联邦学习的一个基本要求是允许参与者没有顾虑地自由加入或离开，即关于离开用户的私人数据应该被中心服务器主动遗忘。离开的用户享有数据遗忘权，这项权利已经在一些数据法案中明确规定，例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。已经有一些主动遗忘的方法，例如重训练等。然而具体的遗忘操作不是用户重点关心的，用户更关心遗忘是否可以验证以及如何验证，即我的个人数据是否被成功遗忘，以及遗忘的效果如何。然而联邦学习中的遗忘验证不能通过简单的遗忘数据上的性能判断，因为联邦学习是一种分布式协作学习框架，个人退出对于大规模联邦学习的影响较小，其他人的贡献使得联邦学习的全局模型依然在退出用户的个人数据上维持较好的性能。因此，如何设计一种安全的联邦遗忘验证算法以高效可靠可信地验证数据遗忘的情况，是目前有效验证数据遗忘权是否被正常提供的一大难题。

一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户，并检查该遗忘用户离开后标记是否被清除。潜在的假设是，标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段：标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征，包括专一性(特定属于离开用户)、持久性(持久验证遗忘)等。针对每种标记方法，检查全局模型在标记数据上的性能，评估遗忘程度。

发明内容

针对现有联邦学习遗忘验证的匮乏，本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法，该方法利用在某些损失变化幅度较大、频率较高的摇摆数据(即具有较大的损失方差)上的特定表现来标记遗忘用户和检查遗忘情况。

本发明的目的是通过以下技术方案来实现的：一种联邦学习中基于易遗忘数据子集的遗忘验证方法，该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段；

所述模型微调阶段，在本地数据集上微调联邦学习中下发的全局模型，并记录联邦学习过程中每一个本地数据上的损失变化；

所述数据筛选阶段，筛选出本地数据集中的固定比例的损失方差较大的数据(例如将遗忘用户的本地数据的损失方差值从高到低排序，选择排序前10％的数据)，也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集，这些易摇摆数据也被看作是容易遗忘的关键数据；

所述检查遗忘阶段，遗忘用户追踪检查接下来若干个周期的全局模型，根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况。

进一步地，这些易遗忘的摇摆数据是遗忘用户个人私有的，且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差，这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的，并且因为没有引入或生成额外的数据，仅仅是利用了遗忘用户的本地数据，该方法并没有造成额外的空间开销。

进一步地，所述模型微调阶段中，在本地数据集上微调联邦学习中下发的全局模型得到本地模型，这个本地模型也是标记后的个人模型，并且在联邦学习的过程中始终记录本地所有数据上的损失值。

进一步地，所述数据筛选阶段，筛选出本地数据集中的固定比例的损失方差较大的数据，也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集，这些易摇摆数据也被看作是容易遗忘的关键数据，具体表现为：该数据在前后两个相邻周期上的损失相差较大，通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据；这些易摇摆数据可以很好地标记本地模型，遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。

进一步地，所述检查遗忘阶段，遗忘用户追踪检查接下来若干个周期的全局模型，根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况，具体为：计算全局模型在易遗忘的摇摆数据验证集上的损失方差，并在每个周期内计算验证集上平均的损失方差，并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况，若全局模型在验证数据集上能够保持一个较小的损失方差，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

进一步地，所述模型微调阶段中的微调后的模型，即标记模型在所述数据筛选阶段中生成的易遗忘的摇摆数据验证集上保持较小的损失方差，这是独属于标记模型的特定行为，究其原因，标记模型已经在这些易遗忘的摇摆数据验证集上微调过，可以保持较小的损失和损失方差。

进一步地，所述检查遗忘阶段中，通过追踪全局模型在验证集上的表现验证数据遗忘与否，具体为：只有标记后的本地模型在验证集上保持较小的损失方差，其他用户的模型不具有这样的性质，所以可以通过检查全局模型在验证集上的损失方差来判断是否成功遗忘该用户。

本发明的有益技术效果是：本发明针对目前联邦学习中缺乏可信可靠可行的遗忘验证方式设计了一种联邦学习中基于易遗忘数据子集的遗忘验证方法，具有轻量级，持续性强，验证效果好，时间和空间开销少等优点，可以有效地验证联邦学习中数据遗忘的具体情况，能够广泛地应用于大规模联邦学习中各种需要遗忘验证的场景中。

附图说明

图1是本发明的易遗忘的摇摆数据实例示意图；

图2是本发明方法的流程示意图；

图3是本发明方法的部分结果图。

具体实施方式

下面结合附图以及实施例对本发明作进一步详细说明。

如图1所示描述了联邦学习中某个离开用户的易遗忘的摇摆数据实例示意图，具体来说，我们展示了离开用户的部分数据，每一张都是在联邦学习过程中本地数据集中具有较大损失方差的样本，可以看出这些样本的一个直观特征就是几个数字没有棱角，比较圆润，特定属于任何一类的特征都不明显，并且一些数据甚至可以通过简单的旋转，翻转操作就可以在人眼看来十分相似，比如子图(b)、(c)、(d)。

如图2介绍了一种联邦学习中基于易遗忘数据子集的遗忘验证方法，包括以下步骤：

步骤一，模型微调阶段。首先在本地数据集上微调联邦学习中下发的全局模型得到本地模型，这个本地模型也是标记后的个人模型，并且在联邦学习的过程中始终记录本地所有数据上的损失值。

步骤二，数据筛选阶段。在本地数据集中筛选出固定比例的损失方差较大的数据，也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集，这些易摇摆数据也被看作是容易遗忘的关键数据，具体表现为：该数据在前后两个相邻周期上的损失相差较大，通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据。这些易摇摆数据可以很好地标记本地模型，遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。

步骤三，检查遗忘阶段。追踪检查接下来若干个周期的全局模型，根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况，具体为：计算全局模型在易遗忘的摇摆数据验证集上的损失方差，并在每个周期内计算验证集上平均的损失方差，并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况，若全局模型在验证数据集上能够保持一个较小的损失方差，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

如图3介绍了在MNIST数据集上执行该方法的结果。其中，数据集为70000张28*28的灰度图片，60000张训练，10000张测试，60000张训练图片平均分给100个联邦学习备选用户，每个用户拥有600条训练数据，每轮联邦学习中选择10个用户上传模型更新，本地训练时的批大小为1024，学习率为0.01，周期数为1，每轮模型聚合时的联邦学习率为10，联邦学习的学习轮数为100轮，离开用户提出退出，标记，检查和服务器发起遗忘的时间均为第40个训练轮次，标记时的本地微调周期数为100，优化器为随机梯度下降，筛选的固定比例的损失方差较大的数据的比例为10％。如图3所示，在没有主动遗忘方法(重训练，剔除遗忘用户，从头开始训练)时，全局模型在离开用户的易遗忘的摇摆验证数据上保持较小的损失和损失方差，而执行了主动遗忘后，遗忘后的全局模型在离开用户的易遗忘的摇摆验证数据上保持较大的损失和损失方差。其中，有主动遗忘方法时的方差为0.22，无主动遗忘方法时的方差为0.06。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段；

所述数据筛选阶段，筛选出本地数据集中的固定比例的损失方差较大的数据，组成易遗忘的摇摆数据验证集；

2.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述易遗忘的摇摆数据是遗忘用户个人私有的，且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差，这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的，并且因为没有引入或生成额外的数据，仅仅是利用了遗忘用户的本地数据，并没有造成额外的空间开销。

3.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述模型微调阶段中，在本地数据集上微调联邦学习中下发的全局模型得到本地模型，该本地模型也是标记后的个人模型，并且在联邦学习的过程中始终记录本地所有数据上的损失值。

4.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述数据筛选阶段，筛选出本地数据集中的固定比例的损失方差较大的数据，也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集，这些易摇摆数据也被看作是容易遗忘的关键数据，具体表现为：该数据在前后两个相邻周期上的损失相差较大，通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据；这些易摇摆数据可以很好地标记本地模型，遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。

5.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述检查遗忘阶段具体为：计算全局模型在易遗忘的摇摆数据验证集上的损失方差，并在每个周期内计算验证集上平均的损失方差，并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况，若全局模型在验证数据集上能够保持一个较小的损失方差，则说明联邦学习没有遗忘该用户，否则该用户被遗忘成功。

6.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述模型微调阶段中的微调后的模型，即标记模型在所述数据筛选阶段中生成的易遗忘的摇摆数据验证集上保持较小的损失方差，这是独属于标记模型的特定行为，究其原因，标记模型已经在这些易遗忘的摇摆数据验证集上微调过，可以保持较小的损失和损失方差。

7.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法，其特征在于，所述检查遗忘阶段中，通过追踪全局模型在验证集上的表现验证数据遗忘与否，具体为：只有标记后的本地模型在验证集上保持较小的损失方差，其他用户的模型不具有这样的性质，所以可以通过检查全局模型在验证集上的损失方差来判断是否成功遗忘该用户。