CN114565106A

CN114565106A - 基于孤立森林的联邦学习中毒攻击的防御方法

Info

Publication number: CN114565106A
Application number: CN202210203687.3A
Authority: CN
Inventors: 刘鹏; 黄丝曼; 李先贤; 王利娥
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-05-31

Abstract

本发明公开了一种基于孤立森林的联邦学习中毒攻击的防御方法，包括如下步骤：用干净公开数据集构建验证模型并对验证模型参数注入扰动；在联邦学习的每个迭代中采样上传各个节点更新好的模型参数，将前者和经过扰动处理的验证模型参数形成特征矩阵；使用孤立森林来划分特征矩阵的数据空间，并计算出每个参与者的异常概率分数；根据验证模型的分数在所有上传模型的分数的分布，不断调整阈值，以排除攻击者，并尽量减少防御模型对良性用户的影响。该方法可以自动防御中毒攻击，通过调整预先训练好的验证模型，显著提升联邦学习的鲁棒性，确保联邦学习全局模型的正常训练。

Description

基于孤立森林的联邦学习中毒攻击的防御方法

技术领域

本发明涉及联邦学习技术领域，具体是一种基于孤立森林的联邦学习中毒攻击的防御方法。

背景技术

机器学习训练需要大量的可能包含个人隐私的数据，很多用户基于隐私泄露的风险不愿意提交数据。联邦学习是最近提出的一种机器学习方法，因能有效地缓解“数据孤岛”现象而被广泛关注。在联邦学习中，每个参与方对自己的数据具有绝对的控制权，中心服务器无法直接或间接操作计算节点上的数据，计算节点之间或计算节点与模型服务器间通过交换模型参数等信息协同训练，使得模型在保护用户数据的隐私的同时，其性能接近传统集中式机器学习。

然而，联邦学习的训练过程依赖参与方的诚信，假设参与方会真实有效的执行模型训练过程。这个假设在实际应用过程中通常难以满足。例如，参与方可能由于软硬件故障或者遭受恶意攻击而偏离正常行为，甚至参与方本身就是恶意的，通过篡改本地数据或修改上传的模型参数攻击联邦学习系统，使训练出的模型性能不佳或无法收敛。

目前的防御联邦学习中的中毒攻击的方法中，基于距离或密度测量的方法计算成本昂贵且耗时；利用模型更新来估计真实中心参数并传给服务器的方法可以在一定程度上减轻恶意攻击的影响，但不能完全消除它们，因为其无法区分合法更新和正常更新；此外，这些方法大多假设独立且同分布的数据，而由于联邦学习中计算节点中的数据是独立产生的，各自的数据量与设备自身等诸多因素有关，很难保证不同节点拥有相近的数据量，所以往往表现出不同的分布特征。同时，异常检测技术很容易产生过高的误识率，错误地排除了良性用户的参与，反而降低了模型的精度，精准的排除异常用户的影响是联邦学习系统正常工作的保障。

发明内容

本发明的目的是针对现有技术中存在的不足，而提供一种针对联邦学习中恶意用户的中毒攻击的防御方法。这种方法能降低误识率，鲁棒性强。

实现本发明目的的技术方案是：

一种基于孤立森林的联邦学习中毒攻击的防御方法，实现该防御策略的场景是一个由数个参与方和一个中央服务器组成的水平联邦学习模型，每个参与者只可以访问自己的本地数据集，每个节点的数据都不与服务器共享，所述方法包括如下步骤：

步骤1：联邦学习模型初始化，设置整体训练轮次、参与者的数量K和一个中央服务器S，每个参与者可以访问自己的本地数据集D_i，|D_i|＝l_i，每个参与者的数据都不与服务器共享，样本总数为l；

步骤2：验证模型预训练：配置干净的公共数据集训练验证模型，部分验证模型参数注入扰动；训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的验证模型；

步骤3：联邦学习第t轮训练时，每个节点利用中央服务器下发的全局模型参数

和本地数据集D_i在本地训练并产生新的模型参数

n表示模型参数的维度，随机选择k个客户将将其更新后的模型参数

同步上传至中央服务器；

步骤4：对采样上传的模型参数，不计算节点模型参数之间的距离，而是构造孤立森林异常检测模块，投入采样的模型参数和经过扰动处理的验证模型参数共同参与检测；

步骤4.1：构造特征矩阵X_k×m，递归地随机分割X_k×m，采用子采样的方式构造多颗决策树iTree，将返回的iTree集合并准备进行评估；

步骤4.2：将节点在所有iTree的高度平均值比值归一化得到统计量s(x,k)，将统计量s(x,k)作为异常用户的评价指标；

步骤5：所有参与训练的模型参数经过孤立森林模块得到对应的异常分数后，根据验证模型的分数在所有上传模型的分数的分布，不断调整阈值；

步骤6：排除标签为异常的更新参数，中央服务器接收正常的训练参数运行联邦平均算法，聚合产生新的全局模型并再次将计算好的全局模型参数广播给每个参与方，为下一轮训练做准备，然后重复步骤3至步骤6直至联邦学习全局模型收敛。

与现有技术相比，本技术方案具有以下有益效果：

本技术方案针对联邦学习场景中的中毒攻击问题，在服务器端构建了基于孤立森林的异常检测模块，在联邦学习的每次迭代计算所有节点的异常概率。进一步，在联邦框架中，随着全局模型的聚合，节点上传的模型参数都在不断趋近，一个固定的检测阈值并不合适，同时异常检测技术很容易产生过高的误检率，错误地排除了良性用户的参与，反而降低了模型的精度。本技术方案采用验证模型训练动态阈值，能有效降低误识率，将模型参数的异常概率转变为预测分数，从而判断参与方是否为恶意攻击者，同时排除恶意用户的模型参数并聚合足够多的良性用户参与训练，使联邦学习模型更加鲁棒。

这种方法能降低误识率，鲁棒性强。

附图说明

图1为实施例的流程示意图；

图2为实施例中联邦学习的框架示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

联邦学习是一种新兴的、分布式的机器学习方法，参与者在使用自己的本地数据进行训练后提交参数，服务器将用户提交的模型参数汇总，形成一个联邦学习模型。通过发送本地更新参数而不是原始数据，用户的数据隐私安全得以保证，同时无法了解全局模型是如何形成的，这种不透明性保护了用户的隐私。然而，由于原始数据从未被发送到服务器上，其上传的模型参数的质量和完整性无法得到保证。恶意攻击者可以向自己的原始数据或上传的参数注入中毒攻击。因此，联邦学习非常容易受到中毒攻击，这导致模型的性能大大降低。

基于上述原因，本例设计了一种针对联邦学习中恶意用户的中毒攻击的防御方法，在联邦学习的每个迭代中，使用孤立森林来划分模型参数形成的特征矩阵，并计算出每个参与者的异常概率，使用公开数据集训练验证模型，以此来设计动态阈值，通过排除异常用户，并尽量减少防御模型对良性用户的影响，确保全局模型的正确训练，可以显著提高防御模型的性能，如图1所示，所述方法包括如下步骤：

步骤2.1：配置干净的公共数据集D_aux并利用D_aux预训练验证模型w_aux；

步骤2.2：部分验证模型参数注入符合拉普拉斯分布的扰动λ，并调整扰动程度；

步骤2.3：根据已知的污染模型参数设置孤立森林的污染率，训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的模型，记录与孤立森林的污染率有关的参数γ；

步骤3：如图2所示，对于一个由K个参与者和一个中央服务器S组成的联邦学习模型，联邦学习第t轮训练时，每个节点利用中央服务器下发的全局模型参数

和本地数据集D_i在本地训练并产生新的模型参数

n表示模型参数的维度，如公式(1)：

随机选择k，k＜K个客户将更新后的节点模型参数

同步上传至中央服务器S，S将上传的模型参数与验证模型参数一起构造特征矩阵并送入孤立森林检测模块；

步骤4：对采样上传的模型参数，不计算模型参数之间的距离，而是构造孤立森林异常检测模块，投入采样的模型参数和经过扰动处理的验证模型参数w_aux共同参与检测；

步骤4.1：假设有k个用户并行训练，用每个客户端上传的模型参数构造特征矩阵X_k×m，m是由上传的模型参数形成的特征，递归地随机分割X_k×m，并采用子采样的方式构造多颗决策树iTree，在训练过程结束时，将返回的iTree集合并准备进行评估；

步骤4.2：对于查找哪些用户可能是异常的，孤立森林在评估阶段设计了统计量s(x,k)，这个统计值可以与每个参与者的异常概率关联起来：

s(x,k)的取值范围是[0,1]，取值越接近于1，则是异常点的概率也越大，h(x)表示x的数值在iTree的深度，离根节点越近，h(x)则越小，根节点的高度为0；E(h(x))是x在所有iTree的高度平均值，用c(k)来归一化E(h(x_i))，c(k)表示对于一个包含k个样本的数据集，若用一个二分树来搜索，平均搜索不成功的路径就等于这k个点的平均路径长度c(k)，ξ为欧拉常数：

根据经验，将每棵树的最大深度设置为log₂(k)；

步骤5：所有参与训练的模型参数经过孤立森林模块得到对应的异常分数后，如公式(2)，

初始化γ，计算阈值threshold，如公式(5)，根据验证模型w_aux的分数在所有上传模型的分数的分布，不断调整γ值的大小，直至使所有被扰动的验证模型都被阈值所排除，同时异常用户也被排除了；

threshold＝min(0,ξ(score(W,k),γ)) (5)，

ξ(score(W,k),γ)表示γ的百分比在score(W,k)上对应的分数值；

记录γ用于下一次检测，根据阈值将异常分数转换为预测标签，将被排除的节点标记为异常或恶意攻击者，并根据已知的分数分布推测攻击者的比例和分布，由此使阈值能自适应的调整，减少误识率；

步骤6：服务器端抛弃被标记为恶意攻击者的模型参数，中央服务器接收正常的训练参数运行联邦平均算法，获得一个新的全局模型

如公式(6)，聚合产生新的全局模型并再次将计算好的全局模型参数广播给每个参与方，为下一轮训练做准备，然后重复步骤3至步骤6直至联邦学习全局模型模型收敛；

η，L，

分别表示学习率，损失函数和梯度；

综合上述，防御目标函数为：

为联邦学习模型的总损失函数，D_i＝{x_i,y_i}是每个用户的数据集包括样本

和标签

f(W；Γ；γ)是检测模块的损失函数，W＝(w₁,w₂…w_k)是k个用户上传的模型参数的集合，

是用户真实标签，当τ＝1时，表示模型参数是异常的，τ＝0表示模型参数是正常的。