CN113221105B

CN113221105B - 一种基于部分参数聚合的鲁棒性联邦学习算法

Info

Publication number: CN113221105B
Application number: CN202110519495.9A
Authority: CN
Inventors: 刘哲理; 侯博禹; 高继强; 郭晓杰; 张宝磊
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-09-30
Anticipated expiration: 2041-06-07
Also published as: CN113221105A

Abstract

本发明属于联邦学习鲁棒性技术领域，具体涉及一种基于部分参数聚合的鲁棒性联邦学习算法，包括基础部分聚合协议和基于同态加密的安全部分聚合算法。针对在联邦学习训练的场景下，服务器或第三方机构难以检测恶意用户，难以抵御来自客户端的后门攻击的问题，设计部分聚合协议，在保证模型能够稳定收敛的同时，限制了恶意后门攻击用户的能力，显著增强了联邦学习系统的鲁棒性，尤其适用于大规模用户共同训练的场景。同时，为了保证参与训练客户端的数据和模型隐私，本发明针对此部分聚合算法，设计了基于同态加密的安全聚合算法，确保户上传数据对服务器不可见。因此，本发明保证了联邦学习对客户端和服务器端两方面的安全性。

Description

一种基于部分参数聚合的鲁棒性联邦学习算法

技术领域

本发明属于联邦学习鲁棒性领域的研究，具体涉及一种基于部分参数聚合的鲁棒性联邦学习算法，针对联邦学习中包括部分联邦学习聚合算法(PartialFedAvgalgorithm)、基于部分聚合的安全聚合加密协议(Partial Secure AggregationProtocol)。

背景技术

联邦学习(Federated Learning)技术，为海量终端用户合作训练模型提供了一种安全方案。联邦学习技术允许用户不直接上传隐私数据，而是上传模型参数。同时，保证用户的任何上传数据都在安全聚合算法的加密保护下，进一步保护了用户的数据隐私。在联邦学习过程中，服务器首先初始化一个全局模型，分发给所有参与模型训练的客户端。客户端在本地利用自己的私人数据重新训练该全局模型，获得一个模型更新。当服务器决定对全局模型进行更新时，它随机选择一部分用户，让这部分用户上传他们的模型更新参数。每个用户上传参数时，都经过安全聚合算法的加密，使得用户无法看到各个用户上传参数的明文，只能获得他们聚合的结果。服务器将聚合得来的更新模型优化到原有的全局模型中，即完成了一轮全局模型的优化。服务器将优化过一轮的全局模型重新分发给所有用户，各个用户也获得了优化过的模型，供其本地使用。

联邦学习尤其适合海量IoT、手机端用户合作训练。不直接上传数据保护了每个用户的数据隐私，对上传模型的加密则保护了用户的模型隐私，有效防止了如成员推理、属性推理等隐私推理攻击。虽然联邦学习为海量移动端用户提供了可靠的训练环境，但其难以抵御来自客户端的攻击者。后门攻击就是一种来自客户端的强大攻击，攻击者在本地训练一植入了后门数据的恶意模型，使其在主任务上保证较高准确率，同时对触及后门的数据输出特定错误结果。后门攻击的攻击者可以利用客户端的强大自主性对服务器的全局模型进行替换，并利用联邦学习的训练过程，将模型后门注入所有客户端的模型中，达到如获取权限等恶意目的，大大削弱了联邦学习的安全性。因此限制恶意用户的上传成为了一亟待解决的问题。但是由于联邦学习中安全聚合算法的应用，使得服务器难以验证用户上传结果的正确性。因此在保证联邦学习训练过程模型隐私的同时，检测恶意用户模型上传，成为联邦学习技术发展过程中的难点。

发明内容

本发明的目的一方面是解决联邦学习场景下，防止来自客户端的强大恶意攻击者利用客户端训练和上传模型的自由对全局模型发动后门注入攻击。另一方面，本发明要保障联邦学习原有的训练优势，即尽量高效地加密上传，同时保证有机会检测出恶意用户的不诚实上传。

因此，在保障用户上传隐私的同时，对用户行为进行合理限制，以抑制来自客户端的攻击。基于部分上传的部分聚合算法减少了单个用户上传的信息量，有效削弱了客户端恶意用户的攻击能力。同时针对该部分聚合算法，设计了能加解密客户端部分模型的安全聚合算法。

本发明提供了一种基于客户模型部分上传的聚合算法，首先由服务器端定义每个客户端统一的上传比例，并随全局模型一起分发给客户端。客户端在计算出本地模型的更新后，在模型中选择符合上传比例个数的参数，有效减少了恶意客户端上传的模型信息，但仍可保证全局模型的正确收敛。接着本发明基于同态加密设计了针对客户端所上传的部分模型进行加密计算，使得服务器仍可只能获得模型参数聚合后的结果，而无法窥探各个客户端真实的上传参数。同时，基于同态的安全协议允许服务器端对客户端的不诚实上传进行格式检验。

为实现上述目的，本发明采用如下技术方案：

一种基于部分参数聚合的鲁棒性联邦学习算法，包括以下步骤，

步骤1、服务器初始化全局模型，并将全局模型发给参与训练的n个客户端，并规定客户端上传的参数比例d，安全协议生成公私钥对分发给各个客户端；

步骤2、客户端对模型进行重新优化训练，在更新模型中选择符合上传比例个数的参数，将更新的模型参数经过加密后再上传给服务器；

步骤3、服务器在获取到客户端所上传的参数后，对全局模型进行更新。

本技术方案进一步的优化，所述步骤2客户端的随机选择算法中，设第t轮中，客户端i的本地模型为

其经过对模型的重新优化训练，获得本地模型更新参数为

首先客户端将模型按每层顺序展开成长为l的一维向量V_i，即随机在向量中随机保留l×d个参数值，其余参数设为0，获得新的稀疏向量V_i'，作为客户端的上传数据。

本技术方案更进一步的优化，所述步骤3服务器在获取到客户端上传的稀疏向量后，将这些稀疏向量恢复到模型结构的对应位置，并对每一位的值进行聚合处理。

本技术方案进一步的优化，所述步骤2中加密即客户端随机选择出l×d个位置，用l长的二元向量I记录位置信息，若向量中值为0，

为了在保证全局模型更新的同时完成客户上传内容验证，客户端i需要随机生成k个不同的位置向量I，记为I_i，客户端对更新参数

和k个位置向量进行加密，发送到服务器。

本技术方案进一步的优化，所述步骤3中服务器对客户端所上传的参数进行验证。

本技术方案进一步的优化，所述步骤3服务器接收到客户端发来的加密数据后，从每个客户端发来的k个位置向量中随机采样k₀个向量，并随机生成系数

并对每批数据进行格式验证

若未通过则验证失败。

本技术方案进一步的优化，所述步骤3服务器对验证通过的客户端参数进行解密，参与训练的客户端的k个位置向量中随机选择一个向量作为位置恢复向量记作

通过同态乘法获得密文上的稀疏更新矩阵

使用同态上的加法运算获得密文上的聚合稀疏向量和聚合位置向量

由于客户端集合中的所有客户端私钥均基于秘密分享获得，因此所有客户端必须提供所有密钥，合作进行解密，即

最后对计算出的聚合值进行平均计算，才能算出更新权重w。

本技术方案更进一步的优化，所述参数引入平滑参数λ，更新结果为

本技术方案进一步的优化，所述步骤2的加密方法为分布式同态加密。

区别于现有技术，上述技术方案提出了一种基于部分上传的联邦学习鲁棒性方法，该方法没有向联邦学习中引入额外的验证机制，然而能大幅减弱客户端的后门攻击者的攻击能力，提高了联邦学习对客户端攻击的鲁棒性。基于同态设计了针对部分上传策略的安全加密协议，延续了联邦学习中保障数据隐私的优点。同时采用基于同态的加密算法有利于进行客户端上传的格式验证，统一了隐私保障和客户端上传验证需求的统一。

附图说明

图1是客户端和服务器端双方交互流程图；

图2是在MNIST数据集上信息分散效果对比图；

图3是在MNIST、CIFAR、LOAN数据集上的模型训练效果图；

图4是在MNIST、CIFAR、LOAN数据集上连续攻击者攻击效果对比图；

图5是在MNIST数据集上逆推攻击效果对比图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本发明提出了一种基于部分参数聚合的鲁棒性联邦学习算法，首先由服务器定义每个客户端统一的上传比例，并随全局模型一起分发给客户端。客户端在计算出本地模型的更新后，在模型中选择符合上传比例个数的参数，有效减少了恶意客户端上传的模型信息，但仍可保证全局模型的正确收敛。接着本发明基于同态加密设计了针对客户端所上传的部分模型进行加密计算，使得服务器仍可只能获得模型参数聚合后的结果，而无法窥探各个客户端真实的上传参数。同时，基于同态的安全协议允许服务器端对客户端的不诚实上传进行格式检验。

步骤1、服务器初始化全局模型，并将全局模型发给参与训练的n个客户端，并规定客户端上传的参数比例d，安全协议生成公私钥对分发给各个客户端。

参阅图1所示，为客户端和服务器端双方交互流程图。服务器利用固定上传比例约束客户端的上传参数个数，从而达到限制客户端上传信息的效果，进而在保证模型正常训练的情况下，有效削弱了后门攻击者的攻击效果。该部分涉及两端算法，即客户端的随即更新算法和服务器端的更新重构算法。

1.1客户端的随机选择算法中，设第t轮中，客户端i的本地模型为

其经过对模型的重新优化训练，获得本地模型更新参数为

服务器通过规定每个客户端上传的参数比例d，规定每个客户端上传的更新模型占完整模型的参数比例只能为d。由于模型是多维张量结构，为了让模型便于传输和参数选择，首先讲模型按每层顺序展开成长为l的一维向量V_i，即随机在向量中随机保留l×d个参数值，其余参数设为0，获得新的稀疏向量V_i′，作为客户端的上传值。

1.2服务器端在获取到客户端所上传的稀疏向量后，需要将这些稀疏向量恢复到模型结构的对应位置，并对每一位的值进行聚合处理。即服务器端需要统计模型中每一位是否有值传入、有几个值传入，并对模型中每一位上的和进行计算。

客户端的上传内容应该保证对服务器是不可见，且可验证的。由此本发明涉及基于同态加密的安全部分聚合协议，满足隐私保护方面的需求。

定义2.1分布式同态加密。设有n方参与者、映射域为F_p、维度为1的向量，分布式同态加密定义为HE＝(HE.DKeyGen，HE.Enc，HE.DDec，HE.Add，HE.Mult)。

定义2.2 HE.DKeyGen.同态密钥生成函数，(pk，(sk₁，...，sk_n})←HE.DKeyGen(1^k)，即输入安全性参数k，生成密钥对(pk，sk)，并将sk以秘密分享形式分成n方密钥{sk_i，...，sk_n}。第i方参与者收到的密钥对为(pk，sk_i)。

定义2.3 HE.Enc.同态加密函数，c←HE.Enc(pk，v)，讲公钥pk和明文向量

作为输入，输出对应的密文向量c。

定义2.4 HE.DDec.同态解密函数，v←HE.DDec({sk₁，...，sk_n}，c)。合作由n方共同执行，将所有秘密分析得来的密钥sk和密文向量c作为输入，输出明文向量

定义2.5 HE.Add.同态上的加法运算函数。c_add←HE.Add(c₁，...，c_k，α₁，...，α_k)。其中，c_i←HE.Enc(pk，v_i)，各自对应混合系数α_i∈F_p。该函数运算输出密文c_add，即

定义2.6 HE.Mult.同态上的乘法函数。c_mult←HE.Mult(c₁，...，c_k)。其中，c_i←HE.Enc(pk，v_i)，输出的密文c_mult即

2.1客户端加密上传模型和保留参数的位置向量。客户端不直接在更新向量

进行参数选择操作，而是随机选择出l×d个位置，用l长的二元向量I记录位置信息，若向量中值为0，则I中相应位置置为0，否则置为1。设用户经过随机选择后上传的稀疏参数向量为V_i，则有

根据协议规定，客户端i需要随机生成k个不同的位置向量I，记为I_i。客户端对更新参数

和k个位置向量进行加密，即

发送到服务器端。

2.2服务器接收到客户端发来的加密向量后，从每个客户端发来的k个位置向量中随机采样k₀个向量，并随机生成系数

并对每批数据进行格式验证

若通过验证，则证明本批次均为诚实用户，采用用户的上传结果进行全局模型更新；若未通过验证，则证明本批次上传用户中包含恶意用户，丢弃本轮上传结果，重新选择用户进行全局模型更新。

2.3从每个本轮参与训练的客户端(记作客户端i)的k个位置向量中随机选择一个向量作为位置恢复向量记作

通过同态乘法获得密文上的稀疏更新矩阵

2.4使用同态上的加法运算获得密文上的聚合稀疏向量和聚合位置向量

2.5最后对计算出的聚合值进行平均计算，才能算出更新权重w。若要计算平滑的均值结果，防止分母为0的情况出现，还需对分母加上一微小平滑参数λ，即

最终可得G^t＝G^t-1+w。

本发明优选一实施例，具体实施方案如下所述：

第1步、服务器利用辅助数据集初始化全局模型，并将全局模型分发给参与训练的n个客户端。同时向发送统一的上传比例d。安全协议生成公私钥对(pk,{sk₁,…,sk_n})，分发给各个客户端，其中任意客户端i保存密钥对(pk,sk_i)。

第2步、设客户端i在第t轮。保存在本地的全局模型

重新训练本地数据，获得更新的本地模型

客户端计算出更新模型更新参数

客户端根据服务器所下发的上传比例d随机生成k个位置向量I_i。

经过同态加密后记作即

将加密后的值发送到服务器端。

第3步、对参与本轮训练的m轮客户端，服务器从每位客户端所上传的k个位置向量中，随机选择k₀个向量，作为格式验证向量。即服务器为第i个用户生成属于映射空间F_p的随机系数β_i，为其选择的k₀个位置向量生成随即系数

即记作

对本轮上传的客户端进行格式正确性验证。客户i对位置向量I_i,j(1≤j≤k₀)用自己的私钥pk进行加密运算，记作c_i,j←HE.Enc(pk,I_i,j)。参与本轮训练的每个客户端i分别对自己的每个加密后的格式向量进行带随机向量的同态加法，即

对一批次m个共同训练的客户计算c＝HE.Add(c₁,...,c_m,β₁,...,β_m)。在聚合过后同态解密时计算解密函数||HE.DDEc({sk₁,...,sk_n},c)||。将m个用户各自的随机系数β_i(1≤i≤m)和他们各自的k₀个位置向量I_i,j(1≤i≤m,1≤j≤k₀)和每个位置向量对应的随即系数α_j(1≤j≤k₀)带入聚合结果，计算的c值应该满足定值：

其中p为安全系数。

第4步、计算通过批次格式验证客户端的全局模型聚合更新参数。从客户端i上传的加密位置向量中随机选取一个记作

位置向量作为完整更新参数的掩码，可以在同态乘法上计算出符合上传比例的稀疏更新参数，即

获得所有客户端的系数更新参数和位置掩码后，可在同态加法上算出聚合后的更新稀疏矩阵，和每一位上传参数的个数，记作

将二者解密后，即可用每一位上的值除以这一位上传参数的个数，即可获得每一位上参数的平均结果，为了防止分母为0的情况出现，引入平滑参数λ，最终更新结果为

第5步、将更新结果优化到全局模型参数上，获得新一轮的全局模型，即G^t＝G^t-1+w。该过程仍保证联邦学习训练过程中的数据隐私性。未在协议约束下的数据特征分布和在协议约束下的数据特征分布如图2所示，为在MNIST数据集上信息分散效果对比图。其中图(a)为利用原有聚合方法在每个用户的单类数据上进行训练，所获得的更新参数结果，可以看出参数可以清晰反映出用户的数据分类差别。图(b)为利用本发明方法训练所获得的更新参数结果，大大模糊了参数所泄露的数据类别差异，提升了计算过程的安全性。

1、基于部分聚合的模型训练方法

在MNIST、CIFAR10、LOAN数据集上采用基于部分聚合的联邦学习训练方法，设系统中总共有1000名客户端，每轮参与训练10人，服务器的上传比例设为10％。服务器本地预训练模型分发给所有客户端，每轮随机选10名客户端上传符合更新比例的部分聚合参数。全局模型训练效果如图3所示，图(a)、图(b)、图(c)分别为在MNIST、CIFAR、LOAN数据集上的模型训练效果图。可以看出不同上传比例均可以在较少时间损失下使全局模型训练至收敛。

2、抵御来自客户端攻击者

当来自客户端的攻击者a参与第t轮模型训练，并向服务器上传恶意结果时，其首先利用本地恶意数据重训练模型，获得植入恶意信息的更新参数

分别在模型准确率为60％、70％、80％时发起一次性攻击。攻击者在协议约束下的表现攻击效果和未在协议约束下的攻击效果如图4所示，为在MNIST、CIFAR、LOAN数据集上连续攻击者攻击效果对比图。

3、抵御客户端强攻击者

并连续参与训练，发起恶意攻击。攻击者在协议约束下的表现攻击效果和未在协议约束下的攻击效果如图5所示，为在MNIST数据集上逆推攻击效果对比图。

本发明解决了如下技术问题：1.有效削弱了联邦学习中来自客户端的后门攻击。2.降低了通过参数泄露隐私的风险。3.解决了参数部分上传可验证加密传输的问题。4.提高了联邦学习的安全性。

本发明的优点如下：能大幅减弱客户端的后门攻击者的攻击能力，提高了联邦学习对客户端攻击的鲁棒性。基于同态设计了针对部分上传策略的安全加密协议，延续了联邦学习中保障数据隐私的优点。采用基于同态的加密算法有利于进行客户端上传的格式验证，统一了隐私保障和客户端上传验证需求的统一。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。