CN115758365B

CN115758365B - 基于神经元激活依赖图的联邦学习模型毒化攻击检测方法

Info

Publication number: CN115758365B
Application number: CN202211563090.6A
Authority: CN
Inventors: 陈艳姣; 徐文渊; 周勃阳; 王宇昕; 龚雪鸾
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-07-14
Anticipated expiration: 2042-12-07
Also published as: CN115758365A

Abstract

本发明公开了一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，应用于人工智能技术领域。包括以下步骤：中央服务器获取各局部训练模型的神经元激活依赖图、邻接矩阵进行二分聚类、对各簇内邻接矩阵所对应的局部训练模型进行聚合、对两个聚合模型进行测试，比较测试结果，判定测试表现差的聚合模型为受到后门攻击的模型集合并对其进行取证标记，以表现好的聚合模型作为本轮学习结果。本发明可以实现对于含有后门的恶意局部模型的检测取证，并消除其对全局聚合模型的影响，提高联邦学习面临毒化攻击的鲁棒性与安全性。

Description

基于神经元激活依赖图的联邦学习模型毒化攻击检测方法

技术领域

本发明涉及人工智能技术领域，更具体的说是涉及一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法。

背景技术

随着人工神经网络的蓬勃发展和机器学习算法的广泛应用，传统的集中式机器学习方案暴露出的数据隔离及数据隐私问题日益突出。由此，联邦学习技术应运而生，多名参与者利用本地数据训练由中央服务器下载的初始化模型，将该局部训练模型传回中央服务器进行聚合，并不断迭代该过程直至全局模型达到理想的收敛效果。这种联合多方客户端共同训练模型的方式，在用户数据隐私得到保护的前提下，打破了数据隔离，实现了数据价值的最大化。然而，由于联邦学习的分布式实现方式，加之训练数据不可见的特点，中央服务器对于各个客户端上传模型安全性的检验变得十分困难，从而使攻击者通过修改客户端训练数据或训练模型参数向中央服务器上传被植入后门的模型，并最终以其作为聚合模型的输入污染全局模型成为可能。因此，如何提供一种对联邦学习模型的毒化攻击进行检测和预防的方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，实现对于含有后门的恶意局部模型的检测取证，并消除其对全局聚合模型的影响，提高联邦学习的安全性。

为了实现上述目的，本发明提供如下技术方案：

一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，包括以下步骤：

S1、中央服务器获取各局部训练模型的神经元激活依赖图；

S2、基于神经元激活依赖图，采用聚类算法，对邻接矩阵进行二分聚类；

S3、基于二分聚类的结果，中央服务器依照聚合规则，对各簇内邻接矩阵所对应的局部训练模型进行聚合，得到两个聚合模型；

S4、中央服务器对两个聚合模型进行测试，比较测试结果，判定测试表现差的聚合模型为受到后门攻击的模型集合并对其进行取证标记，以表现好的聚合模型作为本轮学习结果。

可选的，S1具体为：利用中央服务器的测试数据集对局部训练模型进行映射，获得局部训练模型的隐藏层神经元激活值及输出层神经元预测值，进行二值化，并计算依赖关系，得到神经元激活依赖图，其中，测试数据集与各局部训练模型的训练数据分布相同。

可选的，神经元激活依赖图NDG为一个有向图，具体组成要素包括节点集合V与有向连接E：

NDG＝(V,E)

式中：

V＝B∪O

具体的：

E＝{(P,Q)|P→Q,(P,Q)∈V×V}

式中，B为被选中的局部训练模型隐藏层中每个神经元的二值化真实激活值及反事实值集合，O为局部训练模型输出层的二值化真实预测值及反事实预测值集合，B与O共同构成神经元激活依赖图的节点集合V，E为被选中的局部训练模型隐藏层神经元及输出层各神经元相互及内部之间依赖关系的集合，N为被选中的隐藏层神经元集合，N'_j为隐藏层神经元的二值化真实激活值，

为隐藏层神经元的反事实值，O_i为输出层神经元的二值化真实激活值，/>

为输出层神经元的反事实值，P代表集合B中被选中的隐藏层神经元激活值，Q代表集合O中被选中的输出层神经元激活值，→表示P对Q的依赖。

可选的，神经元真实激活值的二值化具体为：

式中，N'为神经元二值化真实激活值，φ(N)为神经元真实激活值，

为二值化函数，/>

表示实数。

可选的，依赖关系计算的具体实现包括：

式中，α为依赖阈值参数，T为输入模型的测试集合，

为满足预设条件的样本比例，取值范围为[0，1]，P_ture表示集合B中被选中的隐藏层神经元的二值化激活值为True，

表示集合O中被选中的输出层神经元二值化激活值为False。

可选的，S2具体为：选取距离函数，对各邻接矩阵之间进行相似度计算，基于相似度计算结果对邻接矩阵进行聚簇，重复相似度计算和聚簇过程直至邻接矩阵被聚为两簇。

可选的，S3具体为：对各簇内邻接矩阵所对应的局部训练模型采用联邦平均算法进行聚合:

式中，K为参与联邦学习客户端的数量，n为客户端上的全部数据量，n_k为第k个客户端上的数据量，

为用户上传的局部训练模型参数，w_t+1为聚合后的全局模型对应参数。

可选的，S4中的取证标记具体为：对于表现差的聚合模型，判定该聚合模型在聚合时所采用的由用户上传的各局部模型存在进行相关毒化攻击嫌疑，对于该聚合模型所对应的各用户进行标记，在学习过程中不使用标记用户所上传的局部模型，并采取措施对于预防后续攻击。

可选的，预防后续攻击的措施具体为：对每个联邦学习的参与用户设置一个分数，如果用户在一轮学习中被标记为毒化攻击实施者，扣除被标记用户的分数，当一个用户的分数低于预设阈值P时，中央服务器拒绝聚合分数低于预设阈值P的用户所上传的局部训练模型到最终的全局模型中，实现对后续攻击的预防。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，具有以下有益效果：基于训练模型的神经元激活依赖图进行相似性聚类，利用各簇对应聚合模型的测试表现实现对于毒化攻击的检测取证，可以实现对于含有后门的恶意局部模型的检测取证，并消除其对全局聚合模型的影响，提高联邦学习面临毒化攻击的鲁棒性与安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的检测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，如图1所示，包括以下步骤：

S1、中央服务器获取各局部训练模型的神经元激活依赖图；

神经元激活依赖图作为神经网络的因果抽象，通过有向图形式展现了神经网络模型中各神经元之间的相互关联，可以作为评估不同神经网络模型间相似度的重要参考，其方便利用矩阵表示的特点也为比较提供了便利，由此能够较好利用被植入后门的局部训练模型与常规局部训练模型之间的差异，适用于对毒化攻击的检测。

进一步的，S1具体为：利用中央服务器的测试数据集对局部训练模型进行映射，获得局部训练模型的隐藏层神经元激活值及输出层神经元预测值，进行二值化，并计算依赖关系，得到神经元激活依赖图，其中，测试数据集与各局部训练模型的训练数据分布相同。

进一步的，神经元激活依赖图NDG为一个有向图，具体组成要素包括节点集合V与有向连接E：

NDG＝(V,E)

式中：

V＝B∪O

式中，B为被选中的局部训练模型隐藏层中每个神经元的二值化真实激活值及反事实值集合，O为局部训练模型输出层的二值化真实预测值及反事实预测值集合，B与O共同构成神经元激活依赖图的节点集合V，E为被选中的局部训练模型隐藏层神经元及输出层各神经元相互及内部之间依赖关系的集合。

具体的：

E＝{(P,Q)|P→Q,(P,Q)∈V×V}

其中，N为被选中的隐藏层神经元集合，N_j'为隐藏层神经元的二值化真实激活值，

进一步的，神经元真实激活值的二值化具体为：

为二值化函数，/>

表示实数。

进一步的，依赖关系计算的具体实现包括：

式中，α为依赖阈值参数，T为输入模型的测试集合，

表示集合O中被选中的输出层神经元二值化激活值为False。

进一步的，S2具体为：选取距离函数，对各邻接矩阵之间进行相似度计算，基于相似度计算结果对邻接矩阵进行聚簇，重复相似度计算和聚簇过程直至邻接矩阵被聚为两簇。

进一步的，S3具体为：对各簇内邻接矩阵所对应的局部训练模型采用联邦平均算法进行聚合:

进一步的，S4中的取证标记具体为：对于表现差的聚合模型，判定该聚合模型在聚合时所采用的由用户上传的各局部模型存在进行相关毒化攻击嫌疑，对于该聚合模型所对应的各用户进行标记，在学习过程中不使用标记用户所上传的局部模型，并采取措施对于预防后续攻击。

进一步的，预防后续攻击的措施具体为：对每个联邦学习的参与用户设置一个分数，如果用户在一轮学习中被标记为毒化攻击实施者，扣除被标记用户的分数，当一个用户的分数低于预设阈值P时，中央服务器拒绝聚合分数低于预设阈值P的用户所上传的局部训练模型到最终的全局模型中，实现对后续攻击的预防。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，其特征在于，包括以下步骤：

S1、中央服务器获取各局部训练模型的神经元激活依赖图；

S4、中央服务器对两个聚合模型进行测试，比较测试结果，判定测试表现差的聚合模型为受到后门攻击的模型集合并对其进行取证标记，以表现好的聚合模型作为本轮学习结果；

其中，S1具体为：利用中央服务器的测试数据集对局部训练模型进行映射，获得局部训练模型的隐藏层神经元激活值及输出层神经元预测值，进行二值化，并计算依赖关系，得到神经元激活依赖图，其中，测试数据集与各局部训练模型的训练数据分布相同；

S2具体为：选取距离函数，对各邻接矩阵之间进行相似度计算，基于相似度计算结果对邻接矩阵进行聚簇，重复相似度计算和聚簇过程直至邻接矩阵被聚为两簇；

S3具体为：对各簇内邻接矩阵所对应的局部训练模型采用联邦平均算法进行聚合：

为用户上传的局部训练模型参数，w_t+1为聚合后的全局模型对应参数；

S4中的取证标记具体为：对于表现差的聚合模型，判定该聚合模型在聚合时所采用的由用户上传的各局部模型存在进行相关毒化攻击嫌疑，对于该聚合模型所对应的各用户进行标记，在本轮学习过程中不使用标记用户所上传的局部模型，并采取措施对于预防后续攻击。

2.根据权利要求1所述一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，其特征在于，神经元激活依赖图NDG为一个有向图，具体组成要素包括节点集合V与有向连接E：

NDG＝(V,E)

式中：

V＝B∪O

具体的：

E＝{(P,Q)∣P→Q,(P,Q)∈V×V}

式中，B为被选中的局部训练模型隐藏层中每个神经元的二值化真实激活值及反事实值集合，O为局部训练模型输出层的二值化真实预测值及反事实预测值集合，B与O共同构成神经元激活依赖图的节点集合V，E为被选中的局部训练模型隐藏层神经元及输出层各神经元相互及内部之间依赖关系的集合，N为被选中的隐藏层神经元集合，N_j'为隐藏层神经元的二值化真实激活值，

3.根据权利要求2所述一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，其特征在于，神经元真实激活值的二值化具体为：

为二值化函数，

表示实数。

4.根据权利要求3所述一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，其特征在于，依赖关系计算的具体实现包括：

(P_ture,Q)∈V×V}

式中，α为依赖阈值参数，T为输入模型的测试集合，

为满足预设条件的样本比例，取值范围为[0，1]，P_ture表示集合B中被选中的隐藏层神经元的二值化激活值为True，/>

表示集合O中被选中的输出层神经元二值化激活值为False。

5.根据权利要求1所述一种基于神经元激活依赖图的联邦学习模型毒化攻击检测方法，其特征在于，预防后续攻击的措施具体为：对每个联邦学习的参与用户设置一个分数，如果用户在一轮学习中被标记为毒化攻击实施者，扣除被标记用户的分数，当一个用户的分数低于预设阈值P时，中央服务器拒绝聚合分数低于预设阈值P的用户所上传的局部训练模型到最终的全局模型中，实现对后续攻击的预防。