CN113962322A

CN113962322A - 基于联邦学习的后门攻击防御方法、系统及可存储介质

Info

Publication number: CN113962322A
Application number: CN202111283267.2A
Authority: CN
Inventors: 陈艳姣; 徐文渊; 龚雪鸾; 李晓媛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-01-21
Anticipated expiration: 2041-11-01
Also published as: CN113962322B

Abstract

本发明公开了一种基于联邦学习的后门攻击防御方法、系统及可存储介质，属于人工智能技术领域，通过计算三个特征参数可以精确表征训练模型更新的数据分布，神经网络内部结构和输出的细粒度差异，从而对中毒模型实现精准识别。同时结合新型聚类模型更新的设计，本发明能够消除包含具有高攻击影响的中毒模型的模型集群。此外，基于权重裁剪的防御可以有效地减轻可能未被检测到的中毒模型的影响。本发明充分考虑了攻击者的各种攻击手段，可以减轻最先进的后门攻击，而不影响模型在良性数据上的性能，达到良好的防御效果。

Description

基于联邦学习的后门攻击防御方法、系统及可存储介质

技术领域

本发明涉及人工智能技术领域，更具体的说是涉及一种基于联邦学习的后门攻击防御方法、系统及可存储介质。

背景技术

目前，机器学习中的隐私与安全问题是大数据时代非常重要的研究领域之一。随着数据挖掘等技术的深入发展，个人隐私通过数据泄露的现象越来越常见，甚至出现了大规模的信息泄露事件。此外，各种机器模型越发成熟且得到广泛应用，包括金融、医疗等多种领域，模型的安全性显得愈发重要。因此，在机器学习模型中部署针对可能存在的恶意攻击者的防御算法得到广泛关注。

随着大数据的不断发展，如何在保护数据隐私和安全的前提下进行跨组织的数据合作已经成为了世界性的议题，联邦学习(Federated Learning，FL)就在这样的背景下应运而生。联邦学习可以使多个客户端在一个中央服务器下协作训练神经网络模型。其中客户端使用他们自己的数据在本地训练他们的模型，并且只将训练好的模型更新发送到中央服务器，中央服务器聚合更新并将生成的全局模型分发回所有客户端。同时联邦学习承诺客户将他们的训练数据保密，使得提高效率的同时保障了安全。这些优点让联邦学习在具有隐私敏感数据的应用程序中大受欢迎。

但另一方面，因为服务器无法控制参与客户端的训练过程，所以攻击者可以破坏一部分客户端，后门攻击(Backdoor Attacks)就是一种常见的攻击方法。它指的是攻击者通过带有后门触发器的恶意数据训练模型后，获得一个带有后门的中毒模型。这类模型在输入恶意数据时会将其错误分类到某一特定类别，但是当输入良性数据时可以正确分类。这类攻击具有极强的隐蔽性和鲁棒性，给攻击检测和防御带来了一定挑战。

目前对于联邦学习后门攻击的防御主要遵循两种策略，一为旨在检测和删除中毒模型，二为旨在限制攻击的影响。在第一种策略中，与大多数模型更新不同的客户端的模型更新被认为是可疑的，并且会被删除。然而，这些方法同时会删除具有偏差数据分布的客户端的良性模型，导致聚合模型对这些客户端的性能不佳。此外，这些防御在动态攻击场景中无效。第二种防御策略的缺点是它不能有效对抗具有高攻击影响的中毒模型更新。例如，当将带有后门的训练样本添加到原始良性训练数据中时，中毒模型在后门任务上实现了更高的准确率和鲁棒性。

因此，为了解决现有技术的不足，如何提供一种基于联邦学习的后门攻击防御方法、系统及可存储介质是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于联邦学习的后门攻击防御方法、系统及可存储介质，充分考虑了攻击者的各种攻击手段，可以减轻最先进的后门攻击，而不影响模型在良性数据上的性能，达到良好的防御效果。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供了一种基于联邦学习的后门攻击防御方法，基于客户端，包括：

特征提取：获取并统计参与联邦学习的各个客户端的局部模型数据，计算特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，进行同质性特征提取；

分类：计算各个客户端的局部模型超过特征参数归一化能量更新NEUP阈值的数量，并使用其中数量的1/2作为分类边界值，根据边界值对局部模型中的中毒模型进行标记；

中毒簇识别与删除：根据聚类结果以及标记结果，计算每个聚类中毒标记模型的百分比，根据百分比结果对集群模型进行识别，根据识别结果保留和/或删除集群模型；

剪裁：计算保留的集群模型更新的L2范数，并将其中位数作为剪裁边界，对集群模型中超出剪裁边界的局部模型进行缩放；

聚合：将同一集群模型中所剩余的剪裁模型使用FedAvg进行聚合，使每个客户端都会收到对应的集群聚合的模型。

更优的，特征参数除法差异DDifs为除法差异Division Differences：代表的是局部模型与全局模型预测概率的比值。由于所有客户端基于相同的全局模型，在相似的训练数据的情况下，预测标签的概率也会相似。因此，除法差异可以提供不同客户端训练数据中标签分布的信息。

更优的，特征参数归一化能量更新NEUP为归一化能量更新Normalized UpdateEnergy：代表的是输出层单个神经元的能量更新。在训练过程中，输出层神经元的参数会根据每个样本的标签不断进行调整，出现频繁的样本标签的神经元将得到高幅度能量更新，而出现较少的样本标签的神经元将得到低幅度能量更新。因此，归一化能量更新可以反应有关此次更新的训练数据标签频率分布的信息。

优选的，所述计算特征参数除法差异DDifs的公式为：

其中，DDif_t,k,i为客户端k在第t轮提交的模型|W_t,k的除法差异DDifs，N_samples为随机输入样本s_m(m∈[0,N_samples-1])的个数，p(s_m|W_t,k)_i为局部模型中每个输出层神经元i预测的概率，p(s_m|G_t)_i为全局模型|G_t的相应神经元预测的概率。

采用上述方案的有益效果为：通过所述特征参数除法差异DDifs就可以各个客户端训练数据中标签分布的差异。

优选的，所述计算特征参数归一化能量更新NEUP的公式为：

式中，ε_t,k,i表示客户端k在第t轮提交的模型的输出层神经元i的能量更新，P表示输出层神经元与前一层神经元的连接数，b_t,k,i是客户端k第t轮的输出层的神经元i的偏置，w_t,k,i,p是客户端k第t轮的输出层的神经元i连接到来自前一层的神经元p的权重，

及

是全局模型G_t中神经元的偏置和权重；

将同一模型的所有输出层神经元的能量更新归一化，使得各个能量更新不受模型更新能量总范围的影响，具体公式如下：

式中，c_t,k,i表示归一化后的客户端k在第t轮提交的模型的输出层神经元i的能量更新，

表示表示客户端k在第t轮提交的模型的输出层神经元i的能量更新的平方。

采用上述方案的有益效果为：通过所述特征参数归一化能量更新NEUP可以进一步对各个客户端训练数据中标签分布的相似性进行分析，同时，通过将同一模型的所有输出层神经元的能量更新归一化，使得各个能量更新不受模型更新能量总范围的影响。

优选的，所述计算特征参数余弦距离的公式为：

U_i，t＝w_i，t-w_Gt

U_j，t＝w_j，t-w_Gt

C_i，j，t＝1-cos(U_i，t-U_j，t)

式中，C_i，j，t是客户端i和客户端j在第t轮的余弦距离，U_i，t代表客户端i在第t轮的更新量，w_i，t代表代表客户端i在第t轮的输出层的神经元的偏置和，w_Gt表示全局模型G_t输出层的神经元的偏置和，U_j，t和w_j，t是类似的含义。

采用上述技术方案的有益效果为：通过所述特征参数余弦距离可以衡量模型之间的距离，并且比其他向量度量更加稳定。

优选的，所述分类包括：

计算客户端k在第t轮提交的模型的最大归一化能量更新NEUP，公式如下：

式中，P表示该局部模型输出层有P个神经元；

定义阈值ξ：

ξ＝0.01·c_t,k,max

对超过阈值ξ的归一化能量更新NEUP进行计数，公式如下：

式中，TE_t,k表示客户端k在第t轮提交的局部模型中超过阈值的归一化能量更新NEUP的数量；

其中，若c_t，k，i超过阈值ξ，指标函数记为1，否则指数函数记为0；

将上述计算出的阈值数量的1/2作为分类边界值，若模型的阈值ξ低于边界值，则该模型被标记为中毒模型，否则即为良性模型。

采用上述方案的有益效果为：为了最大化攻击影响，攻击者需要使用同类的训练数据。否则，攻击将被后面的防御层缓解。而良性模型的训练数据较为多样。所以中毒模型的训练数据的同质性明显高于良性模型的训练数据。本发明采用TE来衡量训练数据的同质性，并区别中毒模型。

更优的，TE为阈值溢出Threshold Exceeding：代表的是每个局部模型中超过为之设定的归一化能量更新NEUP阈值的归一化能量更新NEUP的数量。良性模型的训练数据的同质性明显低于中毒模型的训练数据，而阈值溢出可以衡量训练数据的同质性，从而识别中毒模型。

优选的，还包括聚类：根据计算得到的特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，使用ISODATA动态聚类算法，对局部模型进行聚类，得到集群模型；

优选的，所述对局部模型进行聚类包括：

定义模型的数量为N，输出层神经元的数量为P；

根据计算得到的特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，得到每个模型维度为P的1个归一化能量更新NEUP向量列表，3个基于不同种子的除法差异DDifs向量列表以及维度为N×N的基于输出层偏置更新量的余弦距离矩阵；

将得到的距离矩阵作为参数输入ISODATA算法对局部模型进行聚类。

优选的，所述根据识别结果保留和/或删除集群模型包括：

少于阈值的集群模型将被标记为可疑，集群的所有模型全部保留，否则，该集群的所有模型全部将被删除。

采用上述技术方案的有益效果为：构建了全面有效的动态过滤机制，通过深入检查模型的预测结果和单个神经元的参数，有效地识别和过滤在同质训练数据上训练的中毒模型。

优选的，所述剪裁包括：使用所有更新的L2范数的中值作为动态的剪裁边界S，若更新的L2范数高于剪裁边界S，则对应的更新根据如下公式进行缩放：

式中，G_t表示全局模型，W_t，i表示第t轮客户端i，

表示用于剪裁的缩放因子。

采用上述技术方案的有益效果为：通过使用所有更新的L2范数的中值作为动态的剪裁边界，从而能够较快的确定一个合适的静态剪裁边界。

另一方面，本发明提供了一种基于联邦学习的后门攻击防御系统，其特征在于，包括：

特征提取模块，用于获取并统计参与联邦学习的各个客户端的局部模型数据，计算特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，进行同质性特征提取；

分类模块，与所述特征提取模块连接，用于计算各个客户端的局部模型超过特征参数归一化能量更新NEUP阈值的数量，并使用其中数量的1/2作为分类边界值，根据边界值对局部模型中的中毒模型进行标记；

聚类模块，与所述特征提取模块连接，用于根据计算得到的特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，使用ISODATA动态聚类算法，对局部模型进行聚类，得到集群模型；

处理模块，与所述分类模块以及所述聚类模块连接，用于根据聚类结果以及标记结果，计算每个聚类中毒标记模型的百分比，根据百分比结果对集群模型进行识别，根据识别结果保留和/或删除集群模型；

剪裁模块，与所述处理模块连接，用于计算保留的集群模型更新的L2范数，并将其中位数作为剪裁边界，对集群模型中超出剪裁边界的局部模型进行缩放；

聚合模块，与所述剪裁模块连接，用于将同一集群模型中所剩余的剪裁模型使用FedAvg进行聚合，使每个客户端收到对应的集群聚合的模型。

再一方面，本发明还提供了一种非暂态计算机可读存储介质，其存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述基于联邦学习的后门攻击防御方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于联邦学习的后门攻击防御方法、系统及可存储介质，具体有益效果为：

(1)通过所述特征参数除法差异DDifs可以各个客户端训练数据中标签分布的差异；

(2)通过所述特征参数归一化能量更新NEUP可以进一步对各个客户端训练数据中标签分布的相似性进行分析，同时，通过将同一模型的所有输出层神经元的能量更新归一化，使得各个能量更新不受模型更新能量总范围的影响；

(3)通过所述特征参数余弦距离可以衡量模型之间的距离，并且比其他向量度量更加稳定；

(4)在中毒簇识别与删除过程中，构建了全面有效的动态过滤机制，通过深入检查模型的预测结果和单个神经元的参数，有效地识别和过滤在同质训练数据上训练的中毒模型；

(5)通过使用所有更新的L2范数的中值作为动态的剪裁边界，从而能够较快的确定一个合适的静态剪裁边界；

(6)通过聚合，能够确保即使攻击者能够绕过分类器甚至绕过裁剪，攻击的影响仍将仅限于攻击者已经控制的客户端，而不影响良性客户端，从而进行更全面的防御。

因此，通过本发明的技术方案能够很好地解决传统联邦学习后门攻击的防御中只是单纯地从聚合中排除有偏差的模型的问题和不能有效对抗具有高攻击影响的中毒模型更新的问题。本发明提出的三个参数可以精确表征训练模型更新的数据分布，神经网络内部结构和输出的细粒度差异，从而对中毒模型实现精准识别。结合新型聚类模型更新的设计，本发明能够消除包含具有高攻击影响的中毒模型的模型集群。此外，基于权重裁剪的防御可以有效地减轻可能未被检测到的中毒模型的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于联邦学习的后门攻击防御方法流程示意图；

图2为本实施例提供的中毒簇识别和删除的流程示意图；

图3为本实施例提供的防御联邦学习的后门攻击系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1所示，本发明实施例公开了一种基于联邦学习的后门攻击防御方法，包括一下步骤：

在一个具体实施例中，步骤1包括：获取联邦学习各个客户端的局部模型的数据，并对联邦学习各个客户端的局部模型的数据进行统计分析，计算除法差异DDifs，归一化能量更新NEUP和余弦距离三个特征参数，进行同质性特征提取。

具体的，特征参数除法差异DDifs为除法差异DivisionDifferences：代表的是局部模型与全局模型预测概率的比值。由于所有客户端基于相同的全局模型，在相似的训练数据的情况下，预测标签的概率也会相似。因此，除法差异可以提供不同客户端训练数据中标签分布的信息。

计算特征参数除法差异DDifs的具体过程为：

如果两个模型W_t，i和W_t，k是在相似的数据上训练的，那么它们的预测概率与全局模型的预测概率的比率也将是相似的，我们将这个比率称为除法差异DDifs。这个参数可以识别具有类似训练数据的客户端。而且因为我们关注的是全局模型G_t的预测与每个客户端k的局部模型W_t，k的预测之间的差异，而不是找到预测概率最高的类别，因此没有必要使用实际数据获得有意义的预测，只使用随机输入向量就可以。为了更具一般性，这里我们使用不同的种子生成3组不同的输入数据进行三次计算。

计算公式如下所示：

式中，DDif_t,k,i为客户端k在第t轮提交的模型|W_t,k的除法差异DDifs，N_samples为随机输入样本s_m(m∈[0,N_samples-1])的个数，p(s_m|W_t,k)_i为局部模型中每个输出层神经元i预测的概率，p(s_m|G_t)_i为全局模型|G_t的相应神经元预测的概率；

其中，①全局模型是联邦学习中由局部模型聚合得到的模型，也可以理解为服务端聚合客户端提交的模型得到的模型。

②一般横向联邦学习的过程是：

(1)客户端从服务端下载最新模型；

(2)每个客户端利用本地数据训练模型，加密梯度上传给服务端，服务端聚合各用户的梯度更新模型参数；

(3)服务端返回更新后的模型给各客户端；

(4)各客户端更新各自模型。

全局模型就是第(2)步得到的。

③全局模型的具体结构和局部模型的具体结构类似，不过是由局部模型聚合得到。

采用上述方案的有益效果为：通过除法差异DDifs就可以各个客户端训练数据中标签分布的差异。

具体的，

特征参数归一化能量更新NEUP为归一化能量更新Normalized Update Energy：代表的是输出层单个神经元的能量更新。在训练过程中，输出层神经元的参数会根据每个样本的标签不断进行调整，出现频繁的样本标签的神经元将得到高幅度能量更新，而出现较少的样本标签的神经元将得到低幅度能量更新。因此，归一化能量更新可以反应有关此次更新的训练数据标签频率分布的信息。

计算特征参数归一化能量更新NEUP的具体过程为：

在训练过程中，输出层神经元的参数会根据每个样本的标签不断进行调整。由于这对每个样本都重复进行，因此出现频繁的样本标签的神经元将得到高幅度能量更新，而出现较少或者不出现的样本标签的神经元将得到低幅度能量更新。归一化能量更新NEUP可以通过分析输出层的参数更新，从而提取有关训练数据中标签分布的信息。同时，为了使不同模型的频率分布具有可比性，将之进行归一化处理。

式中，ε_t,k,i表示客户端k在第t轮提交的模型的输出层神经元i的能量更新，P表示输出层神经元与前一层神经元的连接数，b_t,k,i是客户端k第t轮的输出层的神经元i的偏置，w_t,k,i,p是客户端k第t轮的输出层的神经元i连接到来自前一层的神经元p的权重，b_t,Gt,_i及w_t,Gt,_i,p是全局模型G_t中神经元的偏置和权重；

采用上述方案的有益效果为：通过特征参数归一化能量更新NEUP可以进一步对各个客户端训练数据中标签分布的相似性进行分析，同时，通过将同一模型的所有输出层神经元的能量更新归一化，使得各个能量更新不受模型更新能量总范围的影响。

具体的，余弦距离用来衡量模型之间的距离，并且比其他向量度量更加稳定；

计算余弦距离的具体过程为：

U_i，t＝w_i，t-w_Gt

U_j，t＝w_j，t-w_Gt

C_i，j，t＝t-cos(U_i，t-U_j，t)

采用上述技术方案的有益效果为：通过特征参数余弦距离可以衡量模型之间的距离，并且比其他向量度量更加稳定。

在一个具体实施例中，步骤2包括：基于归一化能量更新NEUP计算各个局部模型的TE，并使用其中位数的一半作为分类边界δ，大于边界的模型标记为良性模型，小于边界的模型标记为中毒模型。

为了最大化攻击影响，攻击者需要使用同类的训练数据。否则，攻击将被后面的防御层缓解。而良性模型的训练数据较为多样。所以中毒模型的训练数据的同质性明显高于良性模型的训练数据。我们使用TE来衡量训练数据的同质性，并区别中毒模型。

计算公式如下所示：

式中代表的含义是客户端k在第t轮提交的模型W_t，k的最大归一化能量更新NEUP，其中P表示该局部模型输出层有P个神经元；

ξ＝0.01·c_t,k,max

式中定义了阈值；

更具体的，TE_t,k是对超过阈值的c_t，k，i的计数。

其中，表示若c_t,k,i超过阈值，指标函数为1，否则为0，相当于对超过阈值的归一化能量更新NEUP进行计数。

然后我们根据TE构建分类器，用来将所有模型标记为中毒或良性。分类器使用TE的中位数除以2作为分类边界δ。如果模型的TE低于δ，则该模型被标记为中毒，否则即为良性。因为我们假设大多数客户端为良性，所以中位数将至少与最低的良性模型的TE一样高。

具体的，TE为阈值溢出Threshold Exceeding：代表的是每个局部模型中超过为之设定的归一化能量更新NEUP阈值的归一化能量更新NEUP的数量。良性模型的训练数据的同质性明显低于中毒模型的训练数据，而阈值溢出可以衡量训练数据的同质性，从而识别中毒模型。

在一个具体实施例中，步骤3：以除法差异DDifs，归一化能量更新NEUP和余弦距离为参数，使用ISODATA动态聚类算法，对局部模型进行聚类。

由于所有客户端使用相同的全局模型，具有相似训练数据的客户端将导致相似的模型更新。根据除法差异DDifs、归一化能量更新NEUP和余弦距离的定义，基于它们的聚类将创建具有相似训练数据的模型组。在此定义模型的数量为N，输出层神经元的数量为P，根据步骤1和2，已经得到每个模型维度为P的1个归一化能量更新NEUP向量列表，3个基于不同种子的除法差异DDifs向量列表，以及维度为N×N的基于输出层偏置更新量的余弦距离矩阵。

参见附图2所示，中毒簇识别和删除的具体过程为：首先，以余弦距离作为ISODATA算法的聚类参数，进行动态聚类。如果两个模型被放入同一个聚类，则将两个模型之间的距离设置为0，否则设置为1，输出成对的距离矩阵。类似地，以归一化能量更新NEUP和除法差异DDifs作为聚类参数，输出距离矩阵。然后，计算以3个除法差异DDifs为参数得到的距离矩阵的平均值。再将结果与以余弦距离和归一化能量更新NEUP为参数得到的距离矩阵取平均值。最后，将得到的距离矩阵作为参数输入ISODATA算法进行最终的聚类。

在一个具体实施例中，步骤4：从步骤2获取标记，从步骤3获取聚类，并为每个聚类确定中毒标记模型的百分比。少于阈值的集群模型将被标记为可疑，集群的所有模型都将保留。否则，该集群的所有模型都将被删除。

因为同一集群中的所有模型具有相似的IID训练数据，所以应该接收相同标签。我们从步骤2获得分类，从步骤3中获得聚类结果，据此可以计算每个聚类中毒标记模型的百分比，从而判断整个集群的标签。若某集群的百分比多于τ＝1/4，则该集群被标记为中毒，并且应该删除该集群的所有模型。这种机制实际上实现了对该集群中所有模型的标签进行投票。选择τ＝1/4的阈值的原因是中毒模型更有可能被标记为良性模型，更大的阈值会导致防御效果下降，而更小的阈值会导致排除良性模型。

采用上述方案的有益效果为：通过前4步，本发明构建了全面有效的动态过滤机制，通过深入检查模型的预测结果和单个神经元的参数，有效地识别和过滤在同质训练数据上训练的中毒模型。

在一个具体实施例中，步骤5：计算所有保留模型更新的L2范数，并将其中位数作为剪裁边界，超出剪裁边界的模型有可能为中毒模型，需要对其更新进行缩放。

为了防止攻击者增加中毒模型更新的权重，我们通过裁剪它们来限制单个更新的L2范数。因为良性更新的L2范数在多轮训练期间会发生变化，所以很难确定一个合适的静态剪裁边界。因此，我们使用所有更新的L2范数的中值作为动态的剪裁边界S。如果更新的L2范数高于剪裁边界S，则对应的更新将按如下公式进行缩放。

式中，G_t表示全局模型，W_t，i表示第t轮客户端i，

表示用于剪裁的缩放因子。

在一个具体实施例中，步骤6：将同一集群的所有剩余的裁剪模型都使用FedAvg方法聚合在一起，每个客户端都会收到各自集群聚合的模型。

采用上述方案的有益效果为：通过上述步骤将所有剩余的裁剪模型都使用FedAvg方法聚合在一起，即将各客户端自己训练的权重整合起来进行平均。但是，与其他方法不同的是，我们设计只有来自同一集群的模型会被聚合在一起。由于集群中的所有模型都在非常相似的IID数据上进行训练，这也使得在良性或中毒数据上训练的模型分开。通过此设计，可以确保即使攻击者能够绕过分类器甚至绕过裁剪，攻击的影响仍将仅限于攻击者已经控制的客户端，而不影响良性客户端，从而进行更全面的防御。

参见附图3所示，本实施例还提供了一种基于联邦学习的后门攻击防御系统，其特征在于，包括：

分类模块，与特征提取模块连接，用于计算各个客户端的局部模型超过特征参数归一化能量更新NEUP阈值的数量，并使用其中数量的1/2作为分类边界值，根据边界值对局部模型中的中毒模型进行标记；

聚类模块，与特征提取模块连接，用于根据计算得到的特征参数除法差异DDifs、归一化能量更新NEUP以及余弦距离，使用ISODATA动态聚类算法，对局部模型进行聚类，得到集群模型；

处理模块，与分类模块以及聚类模块连接，用于根据聚类结果以及标记结果，计算每个聚类中毒标记模型的百分比，根据百分比结果对集群模型进行识别，根据识别结果保留和/或删除集群模型；

剪裁模块，与处理模块连接，用于计算保留的集群模型更新的L2范数，并将其中位数作为剪裁边界，对集群模型中超出剪裁边界的局部模型进行缩放；

聚合模块，与剪裁模块连接，用于将同一集群模型中所剩余的剪裁模型使用FedAvg进行聚合，使每个客户端收到对应的集群聚合的模型。

最后，本实施例还提供了一种非暂态计算机可读存储介质，其存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项基于联邦学习的后门攻击防御方法的步骤。

(6)通过特征参数除法差异DDifs可以各个客户端训练数据中标签分布的差异；

(7)通过特征参数归一化能量更新NEUP可以进一步对各个客户端训练数据中标签分布的相似性进行分析，同时，通过将同一模型的所有输出层神经元的能量更新归一化，使得各个能量更新不受模型更新能量总范围的影响；

(8)通过特征参数余弦距离可以衡量模型之间的距离，并且比其他向量度量更加稳定；

(9)在中毒簇识别与删除过程中，构建了全面有效的动态过滤机制，通过深入检查模型的预测结果和单个神经元的参数，有效地识别和过滤在同质训练数据上训练的中毒模型；

(10)通过使用所有更新的L2范数的中值作为动态的剪裁边界，从而能够较快的确定一个合适的静态剪裁边界；

经检测，本发明可以减轻最先进的后门攻击，而不影响模型在良性数据上的性能，达到良好的防御效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。