CN115062320B

CN115062320B - 异步机制的隐私保护联邦学习方法、装置、介质及系统

Info

Publication number: CN115062320B
Application number: CN202210449740.8A
Authority: CN
Inventors: 苗银宾; 刘紫腾; 马建峰; 李兴华; 马卓
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2024-04-26
Anticipated expiration: 2042-04-26
Also published as: CN115062320A

Abstract

本发明是针对现有异步联邦学习技术中通信开销过大、公平性与准确性相矛盾、本地模型梯度收集和全局模型梯度聚合更新过程中的梯度隐私泄露的问题，提出的一种支持异步机制的隐私保护联邦学习方法。该方法在设定时长内接收所有最新的和陈旧的第一模型密文，对这些模型按照落后第二模型轮次的程度赋予不同权重并加权聚合，避免了由于网络延迟或掉线导致等待时间增加的问题。同时需要先将模型使用掩码加密后再上传，不仅保护了客户端的隐私，还减小了传统隐私保护联邦学习方案中由于同态加密技术带来的巨大计算量和通信开销。

Description

异步机制的隐私保护联邦学习方法、装置、介质及系统

技术领域

本公开涉及信息安全技术领域，尤其涉及一种支持异步机制的隐私保护联邦学习方法、装置、介质及系统。

背景技术

首先，现有的联邦学习方法大都是同步的，即每轮训练中服务器需要等待所有客户端都完成训练后才能对本地模型进行聚合。然而客户端可能存在掉线或网络延迟等问题，导致训练时间增长，从而服务器和其他客户端等待时间增长。

其次，现有的异步联邦学习方法大都直接上传明文的模型更新至服务器，服务器或恶意的第三方可能会对该信息进行推断，从而导致客户端隐私的泄露。而现有的保护隐私的联邦学习方法如同态加密，虽然保护了隐私并且支持加法或乘法运算，但会生成大量的密文，导致巨大的通信开销，同时，生成密文和加密计算等操作也会导致大量的计算开销。而且，大多每收到一个客户端发来的模型更新就进行聚合并且将聚合后的模型发送给客户端，可能存在通信开销的问题，相比传统的同步联邦学习方案，该异步联邦学习方案增加了服务器发送全局模型的次数，从而增加了通信开销。

第三，同步的联邦学习可能能够降低客户端掉线对全局模型精度的影响，但对于多个设备在非常接近的时间内发送同一轮模型更新给服务器时，并不能使多个设备同步聚合；而使用分层机制的异步的联邦学习可能会出现全局模型经过多轮聚合后，第m层才第一次将模型上传至服务器，该模型相对于全局模型是有延时的，但在聚合时权重更高，该机制增加了公平性但可能会影响全局模型的准确度。因此现有技术的联邦学习方法存在着公平性和准确性的问题。

发明内容

有鉴于此，本申请的主要目的在于：针对现有异步联邦学习技术中通信开销过大、公平性与准确性相矛盾、本地模型梯度收集和全局模型梯度聚合更新过程中的梯度隐私泄露的问题，提出一种支持异步机制的隐私保护联邦学习方法。

基于上述目的，本发明提出如下的技术方案：

第一方面，本发明提出了一种异步机制的隐私保护联邦学习方法，所述方法包括下述步骤：

s100、在设置的时长内，在各客户端上对第一模型进行本地训练，对训练好的第一模型，使用该第一模型所在客户端对应的标识符生成的掩码进行加密，获得第一模型密文；

S200、在所述时长内使服务器获得第一模型密文、第一模型所在客户端对应的标识符以及第一模型所在客户端的时间戳；

S300、由服务器根据服务器的时间戳和获得的每一个客户端的时间戳的差值，计算获得的每一个客户端发送的第一模型密文对应权重，进而利用所述权重对第一模型密文进行加权聚合，得到第二模型密文；

S400、使客户端获得第二模型密文、服务器上计算的各个权重、当前服务器的时间戳以及当前服务器获得的标识符，并使服务器上的时间戳更新；

S500、使客户端时间戳更新为获得的服务器的时间戳，对当前每一个被服务器获得的标识符，获得其对应的掩码；将所述掩码与权重结合获得第二模型密文的密钥，从而解密得到第二模型；

S600、判断客户端上的第二模型与第一模型的差值是否满足收敛条件，若不满足，将第二模型作为客户端上新的第一模型，返回S100；

其中，每个客户端具有节点标识符掩码表，在节点标识符掩码表中，所述掩码基于标识符生成，不同客户端对应不同标识符。

在上述技术方案中，通过设定时长，即使客户端掉线或网络延迟，训练时长增长或不能上传训练好的模型，服务器均只等待设定时长，然后在设定时长内收到的第一模型进行聚合，而不是像现有技术中每收到一个模型就进行聚合，因此可以减少通信开销。在设定时长内，服务器收到的模型可以是最新的，也可以是陈旧的，减小了客户端掉线对全局模型的影响。而客户端将训练得到的第一模型加密后再上传，保证了客户端的数据隐私不被泄露，避免了明文上传导致的服务器或恶意客户端的推理攻击。在解密时使用掩码进行解密，不仅减小了加密和密文计算带来的计算和通信开销，还保护了客户端的隐私不被泄露。

作为本发明的进一步改进，在所述方法中，所述加权聚合按照落后当前第二模型轮次的程度赋予不同的权重，避免客户端由于网络延迟或掉线导致服务器等待时间增加的问题；包括下述步骤：

S301、获取一个未设置权重的第一模型密文作为当前第一模型密文；

S302、获取当前第一模型密文对应的时间戳差值，若所述差值小于第一设定值，则将该第一模型密文对应的分值设置为1；否则，执行S304；

S303、若所述差值大于第二设定值，则将该第一模型密文对应的分值设置为0；否则，执行S304；

S304、将该第一模型密文对应的分值设置为差值与1的和的倒数；

S305、判断是否还有第一模型密文未设置对应的分值；若还有，则返回S301；否则，计算所有分值的总和，执行S306；

S306、对每一个第一模型密文，用其对应的分值比上总和获得对应的权重；

S307、计算每一个第一模型密文乘以其对应权重后的累加和，得到第二模型密文。

作为本发明的进一步改进，在所述方法中，所述加密包括下述方法：单一掩码加密、双掩码加密，或者其它加密方法。

作为本发明的进一步改进，在所述方法中，所述第一模型采用下述方法进行训练：随机梯度下降法、全量梯度下降法、小批量梯度下降法、Momentum梯度下降法、NAG梯度下降法或其它梯度下降法，以加快第一模型的收敛。

作为本发明的进一步改进，在所述方法中，所述时长为所有第一模型训练时长的中位数或平均值，以保证大部分客户端的第一模型都能上传，而服务器又不需要等待很长时间。

第二方面，本发明提出了一种异步机制的隐私保护联邦装置，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述任一种方法的计算机程序。

第三方面，本发明提出了一种计算机可读存储介质，存储有能够被处理器加载并执行如上述任一种方法的计算机程序。

第四方面，本发明提出了一种异步机制的隐私保护联邦系统，包括服务器、客户端节点；所述客户端节点具有节点标识符掩码表，在节点标识符掩码表中，所述掩码基于标识符生成，不同客户端节点对应不同的标识符；在设置的时长内，在各个客户端节点上对第一模型进行本地训练，对训练好的第一模型，使用该第一模型所在客户端节点对应的标识符生成的掩码进行加密，获得第一模型密文，并将第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳发送给服务器；在接收到服务器发送的第二模型密文、服务器上计算的各个权重、服务器的时间戳以及所述时长内服务器接收的所有客户端节点标识符时，更新自身时间戳为服务器的时间戳，并根据服务器接收的所有客户端节点标识符，获得其对应的掩码；将所述掩码与权重结合获得第二模型密文的密钥，从而解密得到第二模型，进而判断第二模型与第一模型的差值是否满足收敛条件，若不满足，则将第二模型作为新的第一模型，进行新一轮训练；所述服务器在所述时长内，接收所有客户端发送的第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳；根据服务器时间戳和获得的每一个客户端节点的时间戳的差值，计算获得的每一个客户端节点发送的第一模型密文对应权重，进而利用所述权重对第一模型密文进行加权聚合，得到第二模型密文；将第二模型密文、计算的各个权重、当前服务器的时间戳以及当前获得的所有客户端节点标识符下发给每一个客户端节点，并更新服务器时间戳。

在上述技术方案中：通过设定一段时长作为轮次的标志，服务器接收时长内所有客户端发送的最新的和陈旧的本地模型密文，避免了客户端由于网络延迟或掉线导致服务器等待时间增加的问题。而本发明中第一模型在各个节点进行训练，在训练好后加密上传，保护了各个节点的隐私，还减小了现有技术中隐私保护联邦学习方案中由于同态加密技术带来的计算和通信开销。

作为本发明的进一步改进，在所述系统中，服务器对从客户端节点收到的第一模型按照落后当前第二模型轮次的程度赋予不同的权重并加权聚合，避免了客户端由于网络延迟或掉线导致服务器等待时间增加的问题。所述加权聚合对当前获得的第一模型进行，包括下述步骤：

获取一个未设置权重的第一模型密文作为当前第一模型密文；

获取当前第一模型密文对应的时间戳差值，若所述差值小于第一设定值，则将该第一模型密文对应的分值设置为1；否则，将该第一模型密文对应的分值设置为差值与1的和的倒数；

若所述差值大于第二设定值，则将该第一模型密文对应的分值设置为0；否则，将该第一模型密文对应的分值设置为差值与1的和的倒数；

判断是否还有第一模型密文未设置对应的分值；若还有，则重新获取一个未设置权重的第一模型密文作为当前第一模型密文，按上述步骤进行加权；否则，计算所有分值的总和，并对每一个第一模型密文，用其对应的分值比上总和获得对应的权重，再计算每一个第一模型密文乘以其对应权重后的累加和，得到第二模型密文。

作为本发明的进一步改进，在所述系统中，所述客户端节点和服务器之间的通信信道经过加密，以进一步提高模型传输的安全性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1、支持异步机制的隐私保护联邦学习方法的流程示意图；

图2、支持异步机制的隐私保护联邦学习方法训练过程的交互图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

在实施例1中，采用了一种支持异步机制的隐私保护联邦学习方法，以解决现有异步联邦学习技术中通信开销过大、公平性与准确性相矛盾、本地模型梯度收集和全局模型梯度聚合更新过程中的梯度隐私泄露的问题。所述方法流程图如图1所示，包括下述步骤：

在上述方法过程中，第一模型相当于上述存在技术问题的现有技术中的本地模型，第二模型相当于全局模型。客户端和服务器是依据第一模型和第二模型来确定的，当把本方法用于在分布式系统中时，客户端可能是从服务器。时间戳可以是实际的时间戳，也可以是自定义的变量，比如训练轮次。

所述加密可以是单一掩码加密，也可以是双掩码加密。由加密系统提前生成，使每一个第一模型都有对应的密钥。以单一掩码加密为例。每一个第一模型对应的密钥由一个特定的标识符和掩码组成，掩码由共识函数基于标识符生成。使所有客户端具有所有第一模型对应的密钥。本发明不需要所有第一模型在当前轮次中都被及时上传至服务器，因传输延迟或掉线的第一模型未参与当前轮次的训练的客户端，在收到基于当前已上传的第一模型得到的第二模型，由于其具有所有客户端具有所有第一模型对应的密钥，故可以解密第二模型。

对标识符的加密，不仅保护了客户端的隐私，还减小了传统隐私保护联邦学习方案中由于同态加密技术带来的计算和通信开销。

对第一模型进行加密，既可以保证客户端数据隐私不被泄露，如果采用对称加密，还减少非对称加密技术计算和通信上面的问题，比如同态加密技术，虽然保护了隐私并且支持加法或乘法运算，但会生成大量的密文，导致巨大的通信开销。

在训练开始后，服务器设定一段时间作为每一轮训练持续的时间。在每一轮的训练时间内，其接收所有客户端发来的第一模型密文和第一模型密文所对应的时间戳，包括上一轮或上几轮因传输延迟或掉线的第一模型密文和第一模型密文所对应的时间戳。因此，接收的第一模型密文和第一模型密文所对应的时间戳包括最新的和陈旧的。服务器对这些模型按照落后全局模型轮次的程度赋予不同的权重并加权聚合，避免由于网络延迟或掉线导致等待时间增加的问题。同时，由于需要先将第一模型使用掩码加密后再上传，不仅保护了客户端的隐私，还减小了传统隐私保护联邦学习方案中由于同态加密技术带来的计算和通信开销。

在训练时，可在本地随机选取小批量数据样本，采用下述方法训练第一模型：随机梯度下降法、全量梯度下降法、小批量梯度下降法、Momentum梯度下降法、NAG梯度下降法或其它梯度下降法。在上述训练方法中，优选采用随机梯度下降方法生成本地模型梯度效率高，训练速度快，能实现高效率的训练。训练得到的本地模型梯度都经过对称加密技术进行加密，保证客户端的数据隐私不被泄露。

上述方法步骤的伪码描述为：

优选地，在上述方法中，所述加权聚合优选采用下述步骤：

在上述加密中，若是双掩码加密，可将[w_{c_TimeStamp}]＝w_{C_TimeStamp}+F_K(j)这一单掩码加密过程更改为：[w_{C_TimeStamp}]＝w_{C_TimeStamp}+F_K(j)-F_K(j+1)等。

本发明先对第一模型进行加密，使用一个共识函数对其对应的标识符生成掩码，再对第一模型用掩码加密后上传。解密过程中，使用掩码解密，进行解密，不仅减小了加密和密文计算带来的计算和通信开销，还保证了第一模型的归属信息和训练的数据来源不被泄露。

加权聚合的伪码描述如下：

上述加权聚合中，a和b的值可根据情况调整，且分值的设定规则，可更改为其它设置规则，比如设置为(time+1)^-c或等等，其中c、d、e均为常数。

通过上述实施方式的描述，所属领域的技术人员可以清楚地了解到本公开方法可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

在实施例2中，采用一种异步机制的隐私保护联邦装置，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述任一种方法的计算机程序。

在实施例3中，采用一种计算机可读存储介质，存储有能够被处理器加载并执行如上述任一种方法的计算机程序。

在实施例4中，采用一种支持异步机制的隐私保护联邦学习系统，包括服务器、客户端节点。所述客户端节点具有节点标识符掩码表，在节点标识符掩码表中，所述掩码基于标识符生成，不同客户端节点对应不同的标识符；在设置的时长内，在各个客户端节点上对第一模型进行本地训练，对训练好的第一模型，使用该第一模型所在客户端节点对应的标识符生成的掩码进行加密，获得第一模型密文，并将第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳发送给服务器；在接收到服务器发送的第二模型密文、服务器上计算的各个权重、服务器的时间戳以及所述时长内服务器接收的所有客户端节点标识符时，更新自身时间戳为服务器的时间戳，并根据服务器接收的所有客户端节点标识符，获得其对应的掩码；将所述掩码与权重结合获得第二模型密文的密钥，从而解密得到第二模型，进而判断第二模型与第一模型的差值是否满足收敛条件，若不满足，则将第二模型作为新的第一模型，进行新一轮训练；所述服务器在所述时长内，接收所有客户端发送的第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳；根据服务器时间戳和获得的每一个客户端节点的时间戳的差值，计算获得的每一个客户端节点发送的第一模型密文对应权重，进而利用所述权重对第一模型密文进行加权聚合，得到第二模型密文；将第二模型密文、计算的各个权重、当前服务器的时间戳以及当前获得的所有客户端节点标识符下发给每一个客户端节点，并更新服务器时间戳。

在上述系统中，通过设定一段时长作为轮次的标志，服务器接收时长内所有客户端发送的最新的和陈旧的本地模型密文，避免了客户端由于网络延迟或掉线导致服务器等待时间增加的问题。而本发明中第一模型在各个节点进行训练，在训练好后加密上传，保护了各个节点的隐私，还减小了现有技术中隐私保护联邦学习方案中由于同态加密技术带来的计算和通信开销。

在上述系统中，可以通过加密系统为每个客户端节点生成一个标识符，并根据每个标识符生成掩码，将所述标识符和掩码作为密钥发送给客户端节点。

加密系统、客户端节点和服务器之间的交互如图2所示。客户端节点随机选取小批次数据样本，使用该数据样本训练本地模型。在训练好后，使用该客户端上的秘钥对本地模型进行加密得到本地模型密文，并将加密后的本地模型密文通过加密后的可靠信道上传至服务器，保证客户端节点的数据隐私不被泄露，并且极大的减少了非对称加密技术如同态加密技术的计算和通信开销。

在客户端节点开始训练后，服务器根据预先设定的时间T进行等待，将时间T作为一个轮次。在时间T内，接收包括来自掉线客户端的第一模型密文，实现各个客户端节点安全且高效的协作培训，避免客户端掉线带来的影响以及减少通信开销。

在时间T结束后，服务器根据服务器时间戳和客户端时间戳的差值为不同的客户端赋予不同的权重，并根据这些权重对客户端的第一模型密文进行加权聚合得到第二模型密文，避免了客户端由于网络延迟或掉线导致服务器等待时间增加的问题。加权聚合方法同实施例1。服务器将全局模型密文和权重参数列表通过加密后的可靠信道传送给所有客户端节点。

客户端节点收到第二模型密文后使用掩码和权重参数列表解密出第二模型。客户端节点利用解密后的第二模型作为第一模型，进入下一轮的训练，迭代此交互训练过程，直至目标函数收敛，迭代停止。

在不同客户端节点和服务器之间的通信采用SSL/TSS通道是使用不同的密钥加密的，以进一步提高数据传输的安全性。

在上述系统中，先对客户端节点信息进行加密，即使用一个共识函数根据客户端节点对应的标识符生成掩码，再对第一模型添加掩码后生成第一模型密文再上传至服务器。解密时使用掩码进行解密，不仅减小了加密和密文计算带来的计算和通信开销，还保护了客户端节点的隐私不被泄露，极大地减少非对称加密技术如同态加密技术的计算和通信开销。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种异步机制的隐私保护联邦学习方法，其特征在于，所述方法包括下述步骤：

S400、使客户端获得第二模型密文、服务器计算的各个权重、当前服务器的时间戳以及当前服务器获得的标识符，并使服务器上的时间戳更新；

2.根据权利要求1的方法，其特征在于，所述加权聚合包括下述步骤：

3.根据权利要求1所述的方法，其特征在于，所述加密包括下述方法：单一掩码加密、双掩码加密。

4.根据权利要求1所述的方法，其特征在于，所述第一模型采用下述方法进行训练：随机梯度下降法、全量梯度下降法、小批量梯度下降法、Momentum梯度下降法、NAG梯度下降法或其它梯度下降法。

5.根据权利要求1所述的方法，其特征在于，所述时长为所有第一模型训练时长的中位数或平均值。

6.一种异步机制的隐私保护联邦装置，其特征在于：包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至5中任一种方法的计算机程序。

7.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至5中任一种方法的计算机程序。

8.一种异步机制的隐私保护联邦系统，包括服务器、客户端节点，其特征在于：

所述客户端节点具有节点标识符掩码表，在节点标识符掩码表中，所述掩码基于标识符生成，不同客户端节点对应不同的标识符；在设置的时长内，在各个客户端节点上对第一模型进行本地训练，对训练好的第一模型，使用该第一模型所在客户端节点对应的标识符生成的掩码进行加密，获得第一模型密文，并将第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳发送给服务器；在接收到服务器发送的第二模型密文、服务器上计算的各个权重、服务器的时间戳以及所述时长内服务器接收的所有客户端节点标识符时，更新自身时间戳为服务器的时间戳，并根据服务器接收的所有客户端节点标识符，获得其对应的掩码；将所述掩码与权重结合获得第二模型密文的密钥，从而解密得到第二模型，进而判断第二模型与第一模型的差值是否满足收敛条件，若不满足，则将第二模型作为新的第一模型，进行新一轮训练；

所述服务器在所述时长内，接收所有客户端发送的第一模型密文、第一模型所在客户端节点对应的标识符和第一模型所在客户端节点的时间戳；根据服务器时间戳和获得的每一个客户端节点的时间戳的差值，计算获得的每一个客户端节点发送的第一模型密文对应权重，进而利用所述权重对第一模型密文进行加权聚合，得到第二模型密文；将第二模型密文、计算的各个权重、当前服务器的时间戳以及当前获得的所有客户端节点标识符下发给每一个客户端节点，并更新服务器时间戳。

9.根据权利要求8所述的系统，其特征在于，所述加权聚合包括下述步骤：

10.根据权利要求8所述的系统，其特征在于，所述客户端节点和服务器之间的通信信道经过加密。