CN112329009A

CN112329009A - 一种针对联合学习中噪声攻击的防御方法

Info

Publication number: CN112329009A
Application number: CN202011081206.3A
Authority: CN
Inventors: 周程安; 梁腾; 韦康; 马川; 李骏
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-02-05
Anticipated expiration: 2040-10-12
Also published as: CN112329009B

Abstract

本发明公开了一种针对联合学习中噪声攻击的防御方法。该方法为：在聚合端聚合用户上传的参数之前，由服务器预先检验用户的可信度，并据此设置聚合时各个用户的权重，步骤如下：服务器利用已有公共数据产生初始模型，并分发给参与训练的用户端；每个用户端在本地更新模型，然后将结果上传至服务器；从第二轮上传开始，服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性，并将得到的所有相关性结果进行归一化处理，以此作为聚合时每个用户端的权重，生成新的全局模型；新的全局模型将再次被发送给所有用户端开始新一轮的训练，直到达到系统结束要求。本发明有效地防御了噪声攻击，提高了训练模型的精度，成本低廉且易于实现。

Description

一种针对联合学习中噪声攻击的防御方法

技术领域

本发明属于机器学习中的隐私与安全问题技术，特别是一种针对联合学习中噪声攻击的防御方法。

背景技术

机器学习中的隐私与安全问题是大数据时代非常重要的研究领域之一。随着数据挖掘等技术的深入发展，个人隐私通过数据泄露的现象越来越常见，甚至出现了大规模的信息泄露事件。此外，各种机器模型越发成熟且得到广泛应用，包括金融、医疗、国家安全等多种敏感领域，模型的安全性显得愈发重要。因此，在机器学习模型中部署针对可能存在的恶意攻击者的防御算法得到广泛关注(BuczakA,Guven E.A Survey ofData Mining andMachine Learning Methods for Cyber Security Intrusion Detection[J].IEEECommunications Surveys&Tutorials,2017,18(2):1153-1176.)。

联合学习是将训练数据分布在移动设备上，通过聚集本地计算的更新来学习一个共享的模型(Mcmahan HB,Moore E,Ramage D,et al.Communication-Efficient Learningof Deep Networks from Decentralized Data[J].2016.)。联合学习由谷歌首先提出，主要用于安卓移动端的自然语言处理等问题，是分布式学习的一种。在联合学习架构中，存在一个中央服务器与大量的用户端，服务器会将统一的初始模型分发给所有用户端，各个用户端利用自己的私人数据进行本地训练，再将得到的结果(模型或者梯度等)重新上传到服务器进行聚合；聚合后的结果会作为下一次本地训练的初始模型再一次发送到用户端的手中。服务器会持续这样的流程直至整个训练结束。与传统的分布式学习不同，服务器对用户的数据。在这样的规则下，用户不需要将自己的数据上传也能达到信息交流的效果，既有效的保护的了自己的隐私，也提高了训练模型的泛化性，从而有力的解决了“数据孤岛”问题。

模型中毒攻击是一种自然而强大的攻击类，其中对手可以控制部分用户端并直接操作对中央服务器的更新(Advances andOpen Problems in Federated Learning[J].2019.)。恶意的用户端可以利用这些有缺陷的上传来改变整个模型的边界，导致它以错误的方向更新。具体地说，模型中毒攻击的目标通常有两个级别：无目标攻击和有目标攻击。无目标攻击者通常以降低系统性能甚至破坏整个模型为目的，而目标攻击者只会在具有特定属性的样本上使模型失效。因此前者往往更具破坏性，而后者更难以检测。在分布式系统中，如果恶意用户端产生任意输出(比如拜占庭式攻击)，这将是最糟糕的情况之一，而噪声攻击是常见的无目标模型中毒攻击方式。因此针对联合学习的弹性聚合方式是研究的重点方向。

在当前的防御算法中，比较流行的是服务器端对每个用户上传的模型进行质量检测(陈晋音,张龙源.基于信用评估的面向联邦学习中毒攻击的防御方法[P].浙江省：CN111598143A,2020-08-28.)，服务器利用测试集对用户上传的模型进行测试，并以此结果对用户进行信用评估，从而达到保护系统的目的。然而这种方法要求服务器具备额外的检测数据集，如果使用公共的数据集作测试的话，易被攻击者掌握先验知识而有所准备；如果自己准备私人数据的话，为了测试的准确性需要制作大量的数据，成本较大；此外，对用户进行逐一的验证也增大了系统的计算开销。

发明内容

本发明的目的在于提供一种针对联合学习中噪声攻击的防御方法，有效防御联合学习模型中可能存在的恶意攻击者，从而提高系统性能。

实现本发明目的的技术解决方案为：一种针对联合学习中噪声攻击的防御方法，在聚合端聚合用户上传的参数之前，由服务器预先检验用户的可信度，并根据可信度设置聚合时各个用户的权重，包括以下步骤：

步骤1、服务器利用已有公共数据产生初始模型，并将该初始模型分发给参与训练的用户端；

步骤2、每个用户端在本地更新模型，然后将结果上传至服务器；

步骤3、从第二轮上传开始，服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性，并将得到的所有相关性结果进行归一化处理，以此作为聚合时每个用户端的权重，生成新的全局模型；

步骤4、聚合后的全局模型将再次被发送给所有用户端开始新一轮的训练，直到达到系统结束要求。

进一步地，步骤1中所述服务器利用已有公共数据产生初始模型，并将该初始模型分发给参与训练的用户端，具体为：

系统确定学习目标以及参与训练的用户端信息，通过有关公共数据生成初始模型，并将该初始模型及任务目标分发给用户端进行训练。

进一步地，步骤2中所述每个用户端在本地更新模型，然后将结果上传至服务器，具体为：

用户端利用自己的私有数据对初始模型进行更新，并只将得到的模型参数上传至服务器。

进一步地，步骤3中所述服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性，并将得到的所有相关性结果进行归一化处理，以此作为聚合时每个用户端的权重，生成新的全局模型，具体如下：

采用皮尔森公式计算同一用户端本次上传参数与前一回合上传参数之间的相关性；由于只需要判断二者之间的相关性强弱，因此取所得结果的绝对值，并进行储存；待所有用户完成上传后，将相关性数组作归一化处理，并以此结果为基础对用户的参数进行加权平均，生成新的全局模型。

进一步地，利用相关性加权聚合用户上传参数，具体为：

(1)联合学习训练

设联合学习系统中总共有N个用户端参与训练，其中第i个用户端在第k次聚合前上传的模型参数为

原始权重为p_i，聚合后的全局模型为w^k，则服务器的聚合过程表示为：

其中p_i由该用户端的数据量占总数据量的比重决定，如果每个用户的数量相等的话，则p_i＝1/N；

对于整个联合学习系统来说，训练的目的是在用户的数据基础上得到一个最优学习模型，表示为：

其中，w^*代表最优的全局模型，F_i(w)是第i个用户端的局部目标函数，等价的全局目标函数值为

w^*是能使得F(w)最小的全局模型参数；

(2)皮尔森相关系数

相关系数是用来度量两个变量之间相关程度的指标，而皮尔森相关系数是衡量线性关联性的程度，几何解释为两个变量的取值根据均值集中后构成的向量之间夹角的余弦，皮尔森相关系数公式为：

其中cov(X,Y)为变量(X,Y)之间的协方差，σ_X、σ_Y为分别为X、Y的标准差，因此又表示为：

皮尔森相关系数的取值范围为[-1,1]，接近0则认为两个变量之间的相关性较弱，接近1或-1则认为二者的相关性较强；由于不考虑正相关或负相关的区别，因此取皮尔森相关系数的绝对值作为参考；

训练开始时，由服务器向所有用户发送初始模型，经过本地更新后，用户端们将本地模型重新上传至服务器；在第一次通信后，服务器直接聚合所有模型，并将结果再次下发；从第二次通信开始，服务器计算用户端上传的模型参数与上一轮的相关性，并以此重新分配聚合权重；设共有N个用户端，第i个用户端在第k,k≥2次聚合前上传的模型参数为

则该用户该次聚合时的权重为：

进一步地，步骤4中所述系统结束要求，具体为：全局模型性能达到事先规定的精度标准，或者通信次数达到上限。

本发明与现有技术相比，其显著优点为：(1)在系统服务器设置预先检验环节，通过比较同一个用户端前后上传参数之间的相关性来对参数质量进行评估，并利用评估结果为用户计算信任等级，服务器基于信任等级为每个用户的参数设置聚合权重，从而减弱恶意用户的参与程度以保护系统；(2)针对了联合学习通信和训练中常见的噪声干扰，符合实际需求，具有较强的实用性，用途广泛；(3)有效地削弱了联合学习系统中可能存在的恶意用户的攻击能力，提高了训练模型的精度；(4)利用系统中已有的用户信息进行防御，无需引入额外的信息和数据，成本低廉且易于实现，部署起来十分方便；(5)只需要计算用户两次上传模型参数之间的相关性，并不需要额外的验证数据集，且计算极为简单，具有更好的可实现性。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是联合学习中应对基于噪声的模型中毒攻击的防御方法的系统框图。

图2是部署了防御机制的存在恶意用户的联合学习系统训练结构图。

图3是联合学习在没有防御机制的情况下受到不同占比恶意用户攻击下的系统性能示意图。

图4是在图3的基础上布置了防御机制后的模型性能图。

具体实施方式

本发明一种针对联合学习中噪声攻击的防御方法，能够有效防御联合学习模型中可能存在的恶意攻击者，从而显著提高系统性能，结合图1，主要包括以下步骤：

系统确定学习目标以及参与训练的用户端信息，通过有关公共数据生成初始模型，并将该模型及任务目标分发给用户端进行训练。

进一步地，步骤2中所述步骤2中所述每个用户端在本地更新模型，然后将结果上传至服务器，具体为：

用户端利用自己的私有数据对初始模型进行更新，并只将得到的模型参数上传至服务器，避免了用户之间的数据交流从而保护自己的隐私。

采用皮尔森(Person)公式计算同一用户端本次上传参数与前一回合上传参数之间的相关性。由于只需要判断二者之间的相关性强弱，因此取所得结果的绝对值，并进行储存。待所有用户完成上传后，将相关性数组作归一化处理，并以此结果为基础对用户的参数进行加权平均，生成新的全局模型。

进一步地，利用相关性加权聚合用户上传参数，具体为：

(1)联合学习训练

w^*是能使得F(w)最小的全局模型参数；

(2)皮尔森相关系数

相关系数是用来度量两个变量之间相关程度的指标，而皮尔森相关系数是衡量线性关联性的程度，几何解释两个变量的取值根据均值集中后构成的向量之间夹角的余弦，皮尔森相关系数公式为：

皮尔森相关系数的取值范围为[-1,1]，接近0则认为两个变量之间的相关性较弱，接近1或-1则认为二者的相关性较强；由于我们只关心相关性的强弱，不考虑正相关或负相关的区别，因此取皮尔森相关系数的绝对值作为参考；

训练开始时，由服务器端向所有用户发送初始模型，经过本地更新后，用户端们将本地模型重新上传至服务器端。在第一次通信后，服务器会直接聚合所有模型，并将结果再次下发。从第二次通信开始，服务器端会计算用户上传的模型参数与上一轮的相关性，并以此重新分配聚合权重。设共有N个用户端，第i个用户端在第k,k≥2次聚合前上传的模型参数为

则该用户该次聚合时的权重为：

下面结合附图及具体实施例对本发明做进一步详细说明。

实施例

本实施例一种联合学习中应对基于噪声的模型中毒攻击的防御方法，包括以下步骤：

步骤1、服务器根据需求确定训练目标，统计参与训练的用户，利用公共数据生成初始模型并下发给所有用户端；步骤2、用户端在服务器给予的模型的基础上利用自己的私人数据集进行训练，并将得到的本地模型重新上传至服务器；步骤3、从第二轮上传开始，服务器将计算每个用户端上传的模型参数与前一次上传参数之间的相关性；服务器将得到的所有结果进行归一化处理，以此作为聚合时每个用户端的权重，生成新的全局模型；步骤4、聚合后的全局模型将再次被发送给所有用户端开始新一轮的训练，直到达到系统结束要求。

下面进行具体描述：

1、构建联合学习系统与初始模型阶段：

本实例以训练手写体数字识别器为例。首先服务器确定学习目标为建立一个具有高精度的手写体数字识别模型，并将具体要求和规范进行广播；拥有一定的私人手写体数字数据集且符合相关标准的用户选择是否加入此次训练。如图2所示，即使用户使用的设备不同，也不会影响到整体的模型。在确定好所有的参与者后，服务器利用已知的手写体公共数据集(如MNIST数据集)设置模型结构(如神经网络的层数、神经元数等)，并进行简单的训练得到初始模型。本实例采用三层感知机(MLP)作为基本的模型架构，其中隐藏层的神经元为256个。参与训练的用户共有100位，其中恶意用户的占比共有5％、10％、15％三种情况，所加噪声服从高斯分布。整体训练架构如图2所示。

2、本地训练与结果上传

在得到服务器传来的初始模型后，用户端利用自己的私人手写体数字数据集进行训练，过程中并不会与其他用户进行信息交互，从而加强了对自己隐私的保护。为了训练的有效进行，本地训练需要有时间限制，因此每个用户端的本地训练迭代次数被设置为30；同时为了便于计算，规定每个用户端一次使用的数据集大小统一为10张手写体图片，每张图片为28×28像素；训练采用统一的梯度下降更新方式，且训练开始前所有图像都作归一化处理。由于模型架构总是固定的，因此用户端只需上传格式固定的模型参数至服务器。

3、加权聚合

第一次通信结束后，服务器对所上传的参数进行正常聚合，从第二轮通信开始，每一位用户端上传的模型参数都要计算与前一轮的相关性，并根据所得结果重新分配聚合权重。生成新的全局模型后，服务器再次将该模型下发至用户端处，开始下一轮的训练直至达到结束条件。系统进程结束分两种情况：全局模型性能达到事先规定的精度标准，或者通信次数达到上限。考虑到本实例中存在恶意用户噪声干扰，系统模型的质量难以得到保证，因此规定最大通信轮次为20，即单个用户端总迭代次数达到600次。

4、部署阶段

我们的防御机制基于用户不同时间段的信息计算，因此不需要额外的配置，部署较为简便。实际的实验结果表明该防御方法具有较好的效用，图3为在一般情况下不同占比恶意用户对系统模型性能的影响，可以看出随着恶意用户比例的增加，系统模型的测试精度呈现下降的趋势；图4为在引入防御机制的情况下系统受不同比例恶意用户攻击的影响，可以看出与图3相比，相同的配置下系统的性能有了较为明显的提升，证明了该防御方法的有效性。

Claims

1.一种针对联合学习中噪声攻击的防御方法，其特征在于，在聚合端聚合用户上传的参数之前，由服务器预先检验用户的可信度，并根据可信度设置聚合时各个用户的权重，包括以下步骤：

2.如权利要求1所述的针对联合学习中噪声攻击的防御方法，其特征在于，步骤1中所述服务器利用已有公共数据产生初始模型，并将该初始模型分发给参与训练的用户端，具体为：

3.根据权利要求1所述的针对联合学习中噪声攻击的防御方法，其特征在于，步骤2中所述每个用户端在本地更新模型，然后将结果上传至服务器，具体为：

4.根据权利要求1、2或3所述的针对联合学习中噪声攻击的防御方法，其特征在于，步骤3中所述服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性，并将得到的所有相关性结果进行归一化处理，以此作为聚合时每个用户端的权重，生成新的全局模型，具体如下：

5.根据权利要求4所述的针对联合学习中噪声攻击的防御方法，其特征在于，利用相关性加权聚合用户上传参数，具体为：

(1)联合学习训练

w^*是能使得F(w)最小的全局模型参数；

(2)皮尔森相关系数

则该用户该次聚合时的权重为：

6.根据权利要求4所述的针对联合学习中噪声攻击的防御方法，其特征在于，步骤4中所述系统结束要求，具体为：全局模型性能达到事先规定的精度标准，或者通信次数达到上限。