CN117372839A

CN117372839A - 图像分类领域联邦学习场景下的成员推理攻击方法

Info

Publication number: CN117372839A
Application number: CN202311350111.0A
Authority: CN
Inventors: 徐洋; 何昕龙; 张思聪; 谢晓尧
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-01-09

Abstract

一种图像分类领域中联邦学习场景下的成员推理攻击方法，包括：(1)制作所需的有毒数据并混入目标的数据集之中；(2)在当攻击者作为中心聚合服务器或者攻击者作为本地训练客户端的两种情况下，凭借自身手段获得用于生成推断数据的模型参数；(3)利用影子数据集训练影子模型；(4)用影子模型产生的数据训练攻击用二分类器；(5)用该攻击用二分类器对目标模型实施成员推理攻击。本发明使用投毒攻击对目标模型产生影响，后在不同的训练轮次中对总体或者目标模型的模型参数进行提取，利用影子数据训练影子模型来模拟目标模型训练过程中的参数生成，利用影子模型产生的数据来训练用于攻击的二分类器，用该分类器来成功实施攻击。

Description

图像分类领域联邦学习场景下的成员推理攻击方法

技术领域

本发明属于图像相关领域的攻击技术，具体涉及到了图像分类领域中联邦学习场景下针对于模型隐私的推理攻击，更具体来说就是一种图像分类领域中联邦学习场景下的成员推理攻击方法。

背景技术

数字经济时代，大量的数据得以让模型被训练的更加完善，但是这些用于训练的数据许多都涉及到个人隐私，如果使用以往的集成学习的方式无疑会对个人数据的隐私安全造成了极大的威胁，所以使用联邦学习框架进行模型的训练已然成为了热门选择。

联邦学习是一种分布式的训练方式，个人数据分布在每个人的设备之中而无需上传到服务器，通过在本地客户端进行训练，然后将训练出来的模型梯度数据上传到中心服务器，服务器对梯度进行聚合与更新之后再将更新的模型下发到各个客户端去，以此往复来实现联合模型的训练。但是即使采用了联邦学习的训练方式，用户的隐私仍然有泄露的可能性，目前主要的安全与隐私威胁主要分为四类，投毒攻击、对抗样本攻击、模型提取攻击和模型逆向攻击。

本发明主要研究的针对于联邦学习框架下的成员推理攻击，属于模型逆向攻击中的一种，其诞生于机器学习即服务场景，是一种针对模型数据、用户数据的隐私攻击技术。2020年，成员推理攻击已成为针对人工智能系统的第三大攻击手段，占全年攻击数量的比例达到3.5％。尽管成员推理攻击只是一种间接的隐私窃取，但当成员推理攻击作为高级可持续威胁攻击(Advanced Persistent Threat,APT)攻击链的一环，同其他攻击结合时，例如充当数据重构攻击等攻击手段的预攻击时，敏感的成员信息会使这些攻击更具针对性和破坏性。

中国专利2022113908705公开了一种联邦学习中成员推理攻击方法及装置，方法包括：确定攻击者在目标模型的训练过程中的关键轮次K；将目标样本输入到目标模型中，获取样本特征；样本特征包括目标样本在目标模型的关键轮次K上的损失值以及在最后一个轮次上的损失值、真实标签、参数梯度和输出；为目标样本在目标模型的关键轮次K上的损失值以及在最后一个轮次上的损失值分配权重；将分配权重的样本特征输入到攻击模型中，输出目标样本为成员样本的概率值来判断目标样本是否为成员样本。本申请采用过拟合特征感知，在目标模型训练过程中寻找一个能区分出表现相似的成员和非成员的关键轮次K，利用Transformer模型为不同的样本分配关键轮次和最后一轮的权重，提高攻击准确率。

中国专利2022112120329公开了一种基于联邦学习的成员推理攻击模型训练的方法及应用，方法包括：基于联邦学习模型中每个攻击者所包含的带有标签的第一训练样本构建已标注训练数据池，并基于生成式对抗网络生成的第二训练样本构建未标注训练数据池；基于对抗性表征主动学习模型选择未标注训练数据池中的部分第二训练样本设置标签，并将已设置标签的部分第二训练样本加入已标注训练数据池；基于已标注训练数据池中具有标签的第一训练样本、部分第二训练样本、以及未标注训练数据池中剩余的第二训练样本训练成员推理攻击模型。该方法实现了丰富攻击数据的多样性，增强训练数据，同时实现最大限度地减少所需的数据标签量，降低数据标注成本，提高数据准确性。

上述两种方法同样也属于联邦学习中的成员推理攻击方法，但是与本申请方法不同的是，中国专利2022113908705的方法是利用训练中的一个特定关键轮次K，在该关键轮次实施的攻击，然后利用目标样本在该关键轮次的以及最后一个轮次的损失值，真实标签，参数梯度以及输出来判断该样本是属于成员样本还是非成员样本。中国专利2022112120329的方法主要是使用了生成对抗网络来丰富攻击数据的多样性，以实现增强训练数据的目的，之后实施攻击。本申请的攻击方法所使用的多个轮数以及序列置信度的方法，经检索，未有相同的专利文献。

发明内容

本发明的目的是在于提供一种图像分类领域中联邦学习场景下的成员推理攻击方法，该方法是针对于当前在图像分类领域中联邦学习场景下现有的成员推理攻击方法效果不佳的问题，通过对目标的数据集进行轻微的污染让目标模型发生过拟合并使用序列置信度数据来最大程度的提取模型中所隐含的单个数据点的细节信息从而成功实施攻击，且攻击效果较好。

本发明的技术方案是：

一种图像分类领域中联邦学习场景下的成员推理攻击方法，其特征在于，通过使用投毒攻击以及序列置信度数据的方法来在联邦学习的场景之下实施攻击，首先通过在网上散播不安全的带毒图片来诱导目标客户端下载、致使目标客户端的本地数据受到污染，其次在联邦学习的过程之中利用提取目标模型的参数并生成序列置信度用于推断的方法来成功实施攻击，具体包括了以下步骤：

步骤1、生成受污染的数据集；

步骤2、在联邦学习框架下进行模型的训练，与此同时攻击者会在训练的过程中收集训练的模型参数；

步骤3、利用攻击者自带的影子数据集对影子模型进行训练来模拟出目标模型的模型参数，并利用该参数训练用于成员推理攻击的二分类器；

步骤4、使用我们的攻击方法利用目前主流的数据集CIFAR10,CIFAR100,MNIST,Fashion-MNIST在目前主流的网络上ResNet18,AlexNet,MobileNetV2,InceptionV3实施了攻击并测试了性能。

更具体的步骤为：

步骤1具体为，使用标签反转攻击作为污染数据集的攻击方法，在攻击开始时，从D_shadow中提取出b张c类的图像；对于每个样本(x,c)，将它们的标签c更改为任意标签i，生成数据(x,c)并且i≠c，组成D_attack；然后将这个转换后的数据集与原始训练数据集D_train合并在一起，得到攻击的最终训练数据集D_poison。

步骤2具体为，无论攻击者是作为中心服务器又或者本地客户端，在攻击的实施过程中都会使用多个不同全局训练轮次下的模型参数进行攻击；当服务器充当攻击者时，单独保存目标客户端的模型参数在特定的训练轮次作为攻击使用的模型参数；而当本地客户端作为攻击者时，保留下来在特定的训练轮次，中心服务器所下发的经过聚合的模型参数作为攻击所使用的模型参数。

步骤3具体为，利用与目标训练数据集拥有相同类别但是不同数据的图片作为影子数据集在与目标模型拥有相同架构的影子模型中进行训练；之后利用影子模型生成的序列置信度数据来训练所选中的攻击用而非类器，然后根据其对序列置信度数据生成的置信度数据进行阈值判别最终得出攻击结果。

步骤4具体为，分别在使用ResNet18,AlexNet,MobileNetV2,InceptionV3这几种主流的神经网络模型作为预训练模型的联邦学习场景下利用了几个主流的数据集CIFAR10,CIFAR100,MNIST,Fashion-MNIST进行了攻击效果测试。

本发明的效果：本发明使用少量受污染数据集使目标模型发生一定程度的过拟合，之后在联邦学习的过程中在特定的全局训练轮次对目标模型的参数进行提取，然后利用序列置信度的方法来最大程度的提取出模型中隐含的数据的细节信息，最后利用二分类器对这些细节信息进行分辨，来实现较好的攻击效果。

附图说明

图1是本发明的流程框图；

图2是本发明的联邦学习训练阶段攻击流程图；

图3是本发明的利用影子模型以及影子数据训练攻击用二分类器流程图；

图4是本发明的效果可视化图；八张图分别为在不同的网络模型以及数据集下进行试验的MI-AUC值。

图5是本发明的原理可视化图。其中分别为投毒率0％，投毒率20％，投毒率40％，投毒率60％，投毒率80％，投毒率100％时不同数据点的分布情况。

具体实施方式

下面通过附图和实施例对本发明作进一步描述。

参见图1-3,一种图像分类领域中联邦学习场景下的成员推理攻击方法，通过使用投毒攻击以及序列置信度数据的方法来在联邦学习的场景之下实施攻击；首先通过在网上散播不安全的带毒图片来诱导目标客户端下载致使目标客户端的本地数据受到污染，其次在联邦学习的过程之中利用提取目标模型的参数并生成序列置信度用于推断的方法来成功实施攻击；包括了以下步骤：

步骤1、生成受污染的数据集；

步骤3、利用攻击者自带的影子数据集对影子模型进行训练来模拟出目标模型的模型参数，并利用该参数训练用于成员推理攻击的二分类器。

步骤4、利用目前主流的数据集CIFAR10,CIFAR100,MNIST,Fashion-MNIST在目前主流的网络上ResNet18,AlexNet,MobileNetV2,InceptionV3实施了攻击并测试了性能。

更具体的步骤为：

步骤2具体为，无论攻击者是作为中心服务器又或者本地客户端，在攻击的实施过程中都会使用多个不同全局训练轮次下的模型参数进行攻击；当服务器充当攻击者时，单独保存目标客户端的模型参数在特定的训练轮次作为攻击使用的模型参数。而当本地客户端作为攻击者时，保留下来在特定的训练轮次，中心服务器所下发的经过聚合的模型参数作为攻击所使用的模型参数。

步骤4具体为，分别在使用ResNet18,AlexNet,MobileNetV2,InceptionV3这几种主流的神经网络模型作为预训练模型的联邦学习场景下利用了几个主流的数据集CIFAR10,CIFAR100,MNIST,Fashion-MNIST进行攻击效果测试。

参见图5，在成功使用本方法进行成员推断攻击后，旨在了解其成功背后的原因。因此，使用t-SNE在二维空间中可视化了成员和非成员数据点的置信度分数。选择500个成员数据点和500个非成员数据点进行可视化。图5显示了使用全局攻击方法在CIFAR-10数据集上的可视化结果，其中中毒数量范围从0到500。随着中毒数量的增加，可以观察到成员和非成员数据点逐渐分开，并形成了明显的决策边界。这表明该攻击方法可以有效地推断数据点是否属于成员或非成员。这些结果展示了该攻击方法能够通过在中毒数量增加时形成共享的决策边界来成功区分成员和非成员数据点的能力。

表1分为全局攻击方法部分和本地攻击方法部分：

表1的全局攻击方法部分展示了在中央服务器作为攻击者时使用成员推断攻击方法的结果。可以观察到，该方法在多个模型和数据集上都取得了显著的攻击效果。目标类别t的AUC值随着数据集的污染程度的增加而增加，表明隐私泄漏的风险提高了。此外，由于联邦学习的多方聚合性质，对模型主要任务准确性的影响微乎其微，难以被察觉。例如，当使用ResNet18模型和MNIST数据集时，随着私有数据的污染程度增加，AUC值从0.523增加到0.955。显著的增加了模型的隐私泄漏，而全局模型准确性的损失低于1％。因此，即使在数据集被少量污染或少量人为失误导致数据标签错误的情况下，也存在着使隐私泄露增加的风险。这些结果凸显了该攻击方法的攻击有效性，同时最大限度地减少其对整体模型性能的影响。

在图4中，发明人展示了一些实验的ROC曲线图。

在表1的本地攻击方法部分呈现了在本地客户端作为攻击者时使用成员推理攻击方法时的攻击结果。其中MI-AUC值表示为ROC曲线下面积，TPR@FPR＝1％为当假阳性率为1％时的真阳性率值，在该攻击中，目标客户端的模型参数由中央服务器进行聚合，大大降低了每个客户端的特定隐私数据点对整体模型的贡献。然而，由于在受污染的本地数据集上训练，全局模型仍然保留了模型参数的一些变化。因此，当使用该模型进行联邦学习训练时，对中央服务器分发的聚合模型实施攻击仍然会取得成功。表1展示了可以成功攻击的模型数据。由于该攻击方法依赖于中毒以诱使模型过拟合，使其能够记住私有数据的详细信息，因此即使在攻击聚合模型参数时，仍然可以通过利用聚合模型中存在的关于目标本地客户端数据的细节信息来实现高准确性。例如，在CIFAR10数据集上使用ResNet-18网络，可以获得高达0.899的AUC值。

表1

综上，本发明是一种图像分类领域中联邦学习场景下的成员推理攻击方法，使用少量受污染数据集使目标模型发生一定程度的过拟合，之后在联邦学习的过程中在特定的全局训练轮次对目标模型的参数进行提取，然后利用序列置信度的方法来最大程度的提取出模型中隐含的数据的细节信息，最后利用二分类器对这些细节信息进行分辨，已取得较好的攻击效果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种图像分类领域中联邦学习场景下的成员推理攻击方法，其特征在于：通过使用投毒攻击以及序列置信度数据的方法来在联邦学习的场景之下实施攻击；首先通过在网上散播不安全的带毒图像来诱导目标客户端下载致使目标客户端的本地数据受到污染，其次在联邦学习的过程之中利用提取目标模型的参数并生成序列置信度用于推断的方法来成功实施攻击，包括了以下步骤：

步骤1、生成受污染的图像数据集；

步骤4、利用目前主流的数据集CIFAR10,CIFAR100,MNIST,Fashion-MNIST在目前主流的网络上ResNet18,AlexNet,MobileNetV2,InceptionV3实施攻击并测试性能。

2.如权利要求1所述的在图像分类领域中联邦学习场景下的成员推理攻击方法，其特征在于：更具体的步骤为：

步骤1具体为，使用标签反转攻击作为污染数据集的攻击方法，在攻击开始时，从D_shadow中提取出b张c类的图像，对于每个样本(x,c)，将它们的标签c更改为任意标签i，生成数据(x,c)并且i≠c，组成D_attack；然后将这个转换后的数据集与原始训练数据集D_train合并在一起，得到攻击的最终训练数据集D_poison；

步骤2具体为，无论攻击者是作为中心服务器又或者本地客户端，在攻击的实施过程中都使用多个不同全局训练轮次下的模型参数进行攻击；当服务器充当攻击者时，单独保存目标客户端的模型参数在特定的训练轮次作为攻击使用的模型参数；而当本地客户端作为攻击者时，保留下来在特定的训练轮次，中心服务器所下发的经过聚合的模型参数作为攻击所使用的模型参数；

步骤3具体为，利用与目标训练数据集拥有相同类别但是不同的图片作为影子数据集在与目标模型拥有相同架构的影子模型中进行训练；之后利用影子模型生成的序列置信度数据来训练所选中的攻击用而非类器，然后根据其对序列置信度数据生成的置信度数据进行阈值判别最终得出攻击结果；