CN117875455A

CN117875455A - 一种基于数据增强的联邦学习数据投毒防御方法

Info

Publication number: CN117875455A
Application number: CN202410264365.9A
Authority: CN
Inventors: 曾庆馗; 尹春勇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-08
Filing date: 2024-03-08
Publication date: 2024-04-12

Abstract

本发明公开了一种基于数据增强的联邦学习数据投毒防御方法，其步骤包括：确定数据投毒攻击对客户端数据非独立同分布的联邦学习系统造成的影响；在客户端部署轻量级的本地数据增强和本地训练方案；在服务器端设计历史更新存储装置用于记录客户端上传的梯度更新；通过历史梯度聚类检测服务器聚合过程中是否存在可疑恶意客户端；降低恶意客户端的占比，聚合得到全局模型；该方法在不显著降低模型训练性能的情况下减轻投毒攻击的影响；通过数据增强技术缓和了客户端发起的数据投毒攻击；引入恶意用户检测策略，提高良性客户端的参与率增加本地非独立同分布数据的有限可用性；有效防御联邦学习中的数据投毒攻击，提升联邦学习系统的鲁棒性。

Description

一种基于数据增强的联邦学习数据投毒防御方法

技术领域

本发明涉及联邦学习技术领域，具体涉及一种基于数据增强的联邦学习数据投毒防御方法。

背景技术

随着物联网的广泛应用，智能医疗、智能交通等应用方兴未艾。终端设备产生的数据呈指数级增长，这些数据为构建信息化世界提供了坚实的基础。例如，在医疗物联网中，终端设备收集和存储的用户健康数据被联合训练成一个高效的医疗深度学习模型。然而，从终端设备向集中服务器接收数据可能会对用户隐私造成威胁。为了保持大数据处理的效率并保护客户端的隐私，联邦学习被提出用来缓解集中计算带来的性能瓶颈和隐私风险。一方面，联邦学习基于客户端本地训练的模型梯度更新，而不是基于用户持有的原始数据，聚合联合全局模型。另一方面，联邦学习因其分布式特质暴露了一些隐私和安全问题。

客户端本地训练的私密性使得现有Federated Learning联邦学习系统天生容易受到来自客户端的投毒攻击。这种攻击会操纵任意比例的恶意用户，通过修改本地数据标签或模型参数来破坏全局模型的训练性能。攻击者会发起有针对性的攻击，导致训练模型出现特定的偏斜，或者发起无针对性的攻击，显著降低训练结果，甚至使模型不可行。恶意用户会篡改客户端的原始数据，并将异常模型的梯度上传到服务器对联邦学习造成严重影响，尤其是当客户数据为非独立且同分布数据时，数据投毒攻击往往更为严重。在集中式计算中，针对投毒攻击的常见防御措施（如数据预处理和鲁棒性训练方法）需要访问本地训练数据。而在分布式联邦学习设置中，服务器只能访问本地梯度，因此无法执行这些防御措施。为了防御联邦学习中的数据投毒攻击，现有研究探索了几种防御方法，例如拜占庭鲁棒聚合、基于集群的检测和其他方法。然而，当恶意用户数量超过良性用户数量时，拜占庭聚合效果不佳甚至无效；当客户端本地高度非独立同分布数据时，基于聚类的防御方法难以区分恶意用户和良性用户，无法进行梯度更新。综上所述，这些研究存在以下局限性。(1)许多防御策略都假设了拜占庭用户数量的上限，这在投毒攻击场景中并不现实。(2)一些方法针对的是特定的攻击防御，而恶意用户有能力发起有目标和无目标攻击。(3)当联邦学习客户端的本地数据集为非独立同分布时，难以保证防御性能。

发明内容

为了克服现有技术中存在的不足，本发明提供一种通过数据增强技术缓和数据投毒攻击，通过基于梯度的检测提高数据有限可用性的基于数据增强的联邦学习数据投毒防御方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于数据增强的联邦学习数据投毒防御方法，包括以下步骤：

S1、确定数据投毒攻击对客户端数据非独立同分布的联邦学习系统造成的影响；

S2、在客户端部署轻量级的本地数据增强和本地训练方案；

S3、在服务器端设计历史更新存储装置用于记录客户端每一轮通信上传的梯度更新；通过历史梯度聚类检测服务器聚合过程中是否存在可疑恶意客户端；

S4、降低恶意客户端参与全局聚合的占比，聚合得到全局模型。

作为本发明的一种优选实施方式：所述S1步骤具体包括：

S101、构建联邦学习训练框架，设置一个服务器用于参数聚合、多个客户端用于本地模型训练；

S102、按非独立同分布程度划分客户端本地数据集，确保本地数据集的分布各异；

S103、服务器端发送初始化全局模型至客户端，客户端使用不同分布程度的本地数据训练本地模型，并将本地更新发送至服务器端；

S104、服务器端聚合本地更新得到新一轮全局模型并发送至客户端开启下一轮训练，待达到指定的训练轮数后，对比不同分布程度对全局模型的准确率的影响。

作为本发明的一种优选实施方式：所述S2步骤具体包括：

S201、在客户端设置本地数据增强算法，使用本地数据mixup技术生成新的数据；

S202、用户在客户端本地将自身数据集和生成的新数据融合成本地数据集；

S203、利用本地数据集在接受到的全局模型执行本地训练，得到本地模型的梯度更新并返回至服务器。

作为本发明的一种优选实施方式：所述S3步骤具体包括：

S301、在服务器端设计一个历史更新存储装置用于记录每一轮客户端与服务器通信中上传的梯度更新；

S302、根据客户端反馈的信息确定是否执行了本地数据增强和本地训练，如果未执行本地数据增强和本地训练则将该客户端的上传的更新删除；

S303、计算历史梯度更新的平均值和当前轮每个客户端梯度的差值，对其执行聚类算法以检测服务器聚合过程中是否存在可疑恶意客户端；

S304、如果存在恶意客户端则将收集到的本地梯度更新分为良性客户端和恶意客户端。

作为本发明的一种优选实施方式：所述S4步骤具体包括：

S401、服务器修改良性和恶意客户端的聚合权重用于全局模型聚合；

S402、将聚合的模型发送至客户端，重复执行步骤S203-S402，直至联邦学习训练完成。

本发明相比现有技术，具有以下有益效果：

本发明在不显著降低模型训练性能的情况下减轻投毒攻击的影响；通过数据增强技术缓和了客户端发起的数据投毒攻击；引入基于梯度的恶意用户检测策略，提高良性客户端的参与率增加本地非独立同分布数据的有限可用性；在有效防御联邦学习中的数据投毒攻击的同时，提升了联邦学习系统的鲁棒性。

附图说明

图1为本发明实施例提供的基于数据增强的联邦学习数据投毒防御方法的流程图；

图2为本发明实施例提供的联邦学习数据投毒防御系统图；

图3为本发明实施例提供的客户端本地训练规则图；

图4为本发明实施例提供的客户端本地数据增强效果图；

图5为本发明实施例提供的服务器端检测和聚合规则图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，一种基于数据增强的联邦学习数据投毒防御方法，包括以下步骤：

S2、在客户端部署轻量级的本地数据增强和本地训练方案；

其中，S1步骤中，确定数据投毒攻击对客户端数据非独立同分布的联邦学习系统造成的影响；S2步骤中，在客户端部署轻量级的本地数据增强和本地训练方案；S3步骤中，在服务器端部署历史更新存储装置，用于记录客户端每一轮通信上传的梯度更新，并通过历史梯度聚类检测服务器聚合过程中是否存在可疑恶意客户端；S4步骤中，通过降低恶意客户端参与全局聚合的占比，实现聚合得到全局模型的目标。

本实施例中，数据投毒攻击是在客户端本地发起的，因此防御方法主要在客户端和服务器端分步执行，每一部分都有不同的功能，具体涉及以下两部分：

客户端：在构建联邦学习训练框架中，本实施例设置一个服务器用于参数聚合和多个客户端用于本地模型训练。为了确保本地数据集的分布各异，根据非独立同分布程度划分客户端本地数据集。客户端利用数据增强的数据和自身数据集生成本地数据集，使用全局模型在该数据集上执行本地训练。完成本地训练后将本地模型的梯度更新发送至服务器。其中客户端分为良性客户端和恶意客户端。

良性客户端是按照规定执行本地模型训练和梯度更新上传的可信客户端，它们贡献着对全局模型有益的更新参与全局聚合，推动模型的收敛和优化对联邦学习的训练过程至关重要。相反，恶意客户端通过投毒攻击有意干扰联邦学习系统的性能或偏向，它们发起有目标数据投毒攻击如标签翻转攻击等使全局模型出现错误的偏移，或是发起无目标数据投毒攻击使全局模型的收敛性能下降。为了识别良性和恶意客户端，服务器会根据客户端的历史梯度更新分析异常，以确定是否存在潜在的恶意客户端。一旦检测到恶意行为，服务器将对这些客户端进行标记，并在后续的全局模型聚合中，适当地调整权重以降低它们的影响。

服务器端：在服务器端设计了一个历史更新存储装置，用于记录每一轮客户端与服务器通信中上传的梯度更新。根据客户端反馈的信息，确定是否执行了本地数据增强和本地训练，未执行则将该客户端上传的更新删除。计算历史梯度更新的平均值和当前轮每个客户端梯度的差值，利用聚类算法检测服务器聚合过程中是否存在可疑恶意客户端。如果存在恶意客户端，则将收集到的本地梯度更新分为良性客户端和恶意客户端。服务器端根据这一分类修改良性和恶意客户端的聚合权重用于全局模型聚合，将聚后的模型发送至客户端，重复执行本地训练和聚合过程，直至联邦学习训练完成。

在本实施例中，上述步骤S1步骤包括：

S101、在构建联邦学习训练框架的过程中，设立中央服务器用于参数聚合，选取多个客户端用于执行本地模型训练的任务。联邦学习的这一框架允许在联邦学习系统中实现集中式的全局模型优化，同时允许客户端在本地对模型进行训练，从而保护了本地数据隐私。

S102、为了确保联邦学习系统中客户端的本地数据集分布具有多样性，采取了按照非独立同分布程度的划分策略。该方案考虑了数据的非独立性，并确保了每个客户端本地数据集的分布各异。这样的数据划分策略有助于提高模型的泛化能力，因为模型在训练过程中能够适应更多样化的数据分布。

S103、在联邦学习系统中，服务器端通过向客户端发送初始化全局模型来启动训练过程。每个客户端在接收到全局模型后，利用本地数据进行模型训练。由于采用了按照不同分布程度划分的数据，每个客户端在训练本地模型时所使用的数据分布是不同的。客户端在本地训练后，将本地模型的更新发送至服务器端。

联邦学习的分布式训练规则不需要中央服务器收集整个训练数据集，而是仅接受各个参与者本地模型的更新，有效解决了数据孤岛问题并提供了强大的隐私保护。在这个实施例中，联邦学习的定义涉及n个参与者，每个参与者持有本地训练数据集D₁,D₂,...,D_n，各参与者共同协作训练全局模型，而不会将本地数据D_i暴露给第三方。

S104、在每一轮的训练过程中，服务器端负责聚合各个客户端发送的本地模型更新，以得到新一轮的全局模型。这一聚合过程旨在整合来自不同客户端的信息，从而促进全局模型的进一步优化。服务器将n个参与者上传的权重汇总为全局模型的参数，其中w_i是第i个参与者上传的参数，p_i是本地数据集占总数据集的比例。该模型通过最小化损失函数来优化，具体公式如下，其中L_i(w_i)是第i个参与者本地模型的输出结果，Y是真实的训练标签。

随着训练轮数的增加，系统会达到指定的训练轮数。在训练结束后，对比不同分布程度对全局模型准确率的影响，从而深入了解各客户端对模型训练的贡献和整体性能。联邦学习系统的整体交互方式如图2所示，在第t轮训练中，服务器端发送第t轮全局模型w_t到所有客户端，n个客户端上传新一轮的本地梯度更新()。

在本实施例中，上述步骤S2步骤包括S201~S203：

S201、在客户端设置本地数据增强算法时，采用了一种先进的本地数据mixup技术。该技术通过对本地数据集进行巧妙的合成，生成新的具有多样性的数据样本。本地数据增强的目标是丰富本地数据集，使其更具代表性和多样性，从而提高模型的泛化能力。通过本地数据mixup技术，客户端能够在不泄露隐私信息的前提下，有效地扩展本地数据集。

Mixup是一种流行的数据增强技术，通过实际数据实例之间的线性插值生成额外的数据。它通常应用于图像分类任务，并已被证明能够提高在各种数据集上的测试准确性。mixup通用的邻近分布具体表示为：

其中λ遵循Beta(α,α)分布，α∈(0,∞)。这意味着从混合邻近分布中采样会产生虚拟的特征-目标向量。超参数α控制了特征-目标对之间的插值强度，δ()是Dirac质量函数。其中和是从训练数据中随机选择的两个特征目标向量如下所示。

Mixup通过分配训练样本的凸组合给标签的凸组合来正则化类边界并消除小的非凸区域。利用mixup促进在客户端本地空间中清除投毒区域，其中投毒数据实例被分配对抗性标签，而该空间是具有不同标签的非投毒实例。该实施例在联邦学习本地客户端限制下适当修改了mixup规则，使其能够抵御数据投毒攻击并减轻在非独立同分布数据的联邦学习中的性能降低。

如图3所示，客户端先将本地数据集随机排列得到另一个仅顺序不同的数据集。随后，对这两个数据集执行mixup操作，使其生成一个新的数据集，该数据集中的样本由两个本地数据集样本混合而来，样本标签按照分布选取。如图3中所展示，“狗”和“猫”的数据样本在执行mixup操作后生成了新样本，并分配了随机的标签。如图4所示，当α设置为0.5时，选取样本标签为“8”“5”的样本混合生成数据增强样本，其数据标签根据分布生成。

S202、在客户端执行本地数据增强后，用户将自身的原始数据集和通过mixup技术生成的新数据进行融合，形成一个更加综合和丰富的本地数据集。这一步骤的设计考虑了混合数据的平衡性和充分性，以确保在本地进行训练时，模型能够充分学习到数据的各种特征和模式。融合后的本地数据集将用于接下来的本地训练过程，这一步骤可以避免本地数据的直接泄露并缓解了联邦学习中非独立同分布数据的影响。

S203、利用经过数据增强的本地数据集，在客户端接收到全局模型后，执行本地训练过程。在本地训练过程中，模型根据融合后的本地数据集进行参数更新，产生本地模型的梯度更新。这一本地模型的梯度更新被反馈至服务器端，以参与全局模型的聚合过程。通过这一步骤，客户端既能在本地维护数据隐私，又能为联邦学习系统做出有益的贡献，从而实现了联邦学习中的数据增强和模型优化。

本实施例选择了图像分类数据集CIFAR-10，其中包含60,000个训练示例和10,000个32乘32尺寸的RGB彩色图像的测试示例。在CIFAR-10数据集上，本实施例应用深度卷积神经网络（Convolutional Neural Network (CNN)）进行图像分类和目标识别。深度卷积神经网络在处理深度学习任务中的图像分类方面表现出色。硬件配置方面，我们使用了AMD®RYZEN® R9-5950x 16核心32线程3.4 GHz的CPU以及12 GB NVIDIA RTX 3080Ti的GPU。编程环境为64GB内存、Ubuntu 20.04.5、Python 3.8，以及基于CUDA 11.5版本的PyTorch1.9。

在本实施例中，上述步骤S3包括S301~S304：

S301、为了更有效地管理和追踪联邦学习系统的进展，服务器端部署了一系列更新处理方法，引入了一个专门的历史更新存储装置。这装置的主要目的是记录每一轮客户端与服务器通信中上传的梯度更新。通过这一设计，系统能够完整地保留历史梯度信息，为进一步的分析和处理提供了有力的基础。

S302、服务器端通过细致的信息反馈机制，能够准确地了解每个客户端的操作情况。根据客户端的反馈信息，服务器可以明确判断是否执行了本地数据增强和本地训练。在未执行以上操作的情况下，服务器还能够及时将该客户端上传的更新删除，确保系统中只保留有效的本地模型更新。

首先，通过在联邦学习系统中嵌入适当的监控和记录机制，以便跟踪每个客户端的活动。在每轮训练过程结束后，服务器端从每个客户端获取反馈信息。反馈信息可能包括客户端是否执行了本地数据增强和本地训练的标志，以及相关的元数据，如操作时间戳等。其次，根据客户端反馈信息，服务器可以判断是否执行了本地数据增强，通过检查反馈信息中的标志位或其他指示符来完成。如果客户端已执行了数据增强则标志位为True，如果为 False则表示未执行。如图5所示，为共计T轮的训练过程(1,…,t,t+1,…,T)构造历史梯度存储数据集,如在第t+1轮中所有客户端梯度更新为()，则将这些更新临时收集存储在第t+1个数据集中。这一步骤中将这些更新区分为增强客户端和非增强客户端。最后如果客户端未执行本地数据增强和本地训练，服务器将及时删除该客户端上传的更新，获得只包含执行数据增强的客户端的历史梯度存储数据集。通过在服务器端维护一个有效模型更新列表，将非增强客户端从列表中排除，确保系统中只包含经过有效处理的本地模型更新。

S303、在服务器端，通过对历史梯度更新的处理，本实施例进一步分析了恶意客户端的更新特征。计算历史梯度更新的平均值以及当前轮每个客户端梯度的差值，本实施例运用聚类算法检测服务器聚合过程中是否存在可疑的恶意客户端。这一步骤不仅提高了系统对异常情况的敏感性，同时也为进一步的安全性措施提供了依据。

针对历史梯度更新，服务器端计算这些更新的平均值，形成一个全局的平均梯度。同时，计算当前轮每个客户端梯度与全局平均梯度的差值。这一步骤旨在捕捉客户端上传的梯度相对于整体的偏差情况。聚类算法有助于发现具有相似更新特征的客户端，并进一步将这些客户端分为不同的聚类簇。运用聚类算法，本实施例中使用DBSCAN聚类，对客户端梯度差值进行聚类分析，其中异常聚类簇可能包含恶意客户端的梯度异常。DBSCAN将数据点分为核心点、边界点和噪声点。在DBSCAN聚类的结果中，噪声点通常被视为异常点。这些噪声点对应于未能有效聚类的客户端。这些未聚类的客户端可能表现出与其他客户端显著不同的特征，将其标记为恶意客户端。在聚类完成后，系统可以检查每个聚类簇是否包含梯度差异异常的客户端。这些差异可能表明梯度受到了意图干扰，将被检测为可疑的恶意客户端标记出来，用于后续处理使用。对于被检测出的可疑恶意客户端，系统可以采取相应的安全性措施暂停或减少其参与全局模型聚合，通知相关系统管理员对这些客户端进行进一步审查，或采取其他限制性措施以减轻潜在风险。

S304、在服务器端判定存在恶意客户端的情况下，系统采取了有针对性的措施。对收集到的本地梯度更新进行分析，将所有客户端区分为良性客户端和恶意客户端。这一细分能够有力地支持后续的调整策略，确保在联邦学习系统中及时而精准地处理潜在的安全风险。

在本实施例中，上述步骤S4包括S401~S402：

S401、服务器在面对良性和恶意客户端的不同情况时，采取了精确的措施，对它们的聚合权重进行了修改。通过调整良性客户端和恶意客户端的权重，服务器能够更加灵活地影响全局模型的形成过程。这一调整策略的制定考虑到了系统对良性和恶意客户端的不同反应需求，以确保全局模型在面对恶意影响时能够更加稳健。

S402、在进行了良性和恶意客户端的权重调整后，服务器将聚合后的全局模型发送至各个客户端。这一步骤是联邦学习系统中迭代训练的关键环节。通过将最新的全局模型传递给客户端，系统保证了每个客户端都能获取到最新的模型信息，并在本地执行模型更新的过程。整个联邦学习过程将通过重复执行步骤S203至S402来进行，直至达到联邦学习训练的完成标准。这一循环执行的机制保证了系统在不断迭代中逐步收敛，取得对全局模型更加精确的优化结果。

在本实施例中，如果不执行本地数据增强则会导致联邦学习训练过程中投毒攻击和数据非独立同分布共同导致收敛性能下降，如果执行恶意客户端检测步骤后完全舍弃了这些更新，则有可能导致本地训练的样本实例不足，导致模型泛化能力较弱。同时，原始数据集CIFAR-10中包含敏感图像信息，客户端在完成本地数据增强后使用生成的数据集训练本地模型，这一措施也可避免原始信息的泄露。因此本发明实施例中提到客户端和服务器端的不同防御方法是有必要的。从以上结果可知，在数据投毒攻击和数据非独立同分布场景下，本发明提出的方法可以在有效防御联邦学习中的数据投毒攻击的同时，提升联邦学习系统的鲁棒性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于数据增强的联邦学习数据投毒防御方法，其特征在于，包括以下步骤；

S2、在客户端部署轻量级的本地数据增强和本地训练方案；

2.根据权利要求1所述的一种基于数据增强的联邦学习数据投毒防御方法，其特征在于，所述S1步骤具体包括：

3.根据权利要求2所述的一种基于数据增强的联邦学习数据投毒防御方法，其特征在于，所述S2步骤具体包括：

4.根据权利要求3所述的一种基于数据增强的联邦学习数据投毒防御方法，其特征在于，所述S3步骤具体包括：

S302、

根据客户端反馈的信息确定是否执行了本地数据增强和本地训练，如未执行本地数据增强和本地训练操作则将该客户端的上传的更新删除；

5.根据权利要求4所述的一种基于数据增强的联邦学习数据投毒防御方法，其特征在于，所述S4步骤具体包括：