CN115145966A

CN115145966A - 一种面向异构数据的对比联邦学习方法及系统

Info

Publication number: CN115145966A
Application number: CN202211075909.4A
Authority: CN
Inventors: 吴晓明; 王艳寒; 杨明; 王鑫; 汪付强; 刘祥志; 龙国东; 陈振娅; 穆超
Original assignee: National Supercomputing Center in Jinan; Beijing Winicssec Technologies Co Ltd
Current assignee: National Supercomputing Center in Jinan; Beijing Winicssec Technologies Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-10-04
Anticipated expiration: 2042-09-05
Also published as: CN115145966B

Abstract

本发明属于人工智能领域，提供了一种面向异构数据的对比联邦学习方法及系统，包括客户端利用当前轮次中当前次数局部更新的局部模型和上一次局部更新的历史局部模型的正余弦距离、当前轮次中当前次数局部更新的局部模型与当前全局模型之间的负余弦距离对当前局部模型进行优化，使得客户端当前轮次的局部模型靠近当前全局模型而远离上一轮次的局部模型，得到最新的局部模型；服务端获取多个客户端的最新的局部模型进行聚合，更新全局模型。本发明从模型相似度的角度建立异构环境下联邦学习的优化问题，使每个客户端都能够学习到接近全局模型表示，以最小化局部模型差异。

Description

一种面向异构数据的对比联邦学习方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种面向异构数据的对比联邦学习方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

移动电话、可穿戴设备等物联网设备在现代社会的普及，导致了来自分布式系统的私人数据快速增长。在这个数字时代，虽然丰富的数据为人工智能的应用提供了巨大的机会，但其中大多数数据以“数据孤岛”的形式存在，如何打破这种“数据孤岛”充分挖掘海量异构数据的价值成为挑战。联邦学习允许多个用户协作训练共享的全局模型，且无需上传本地客户端的数据，只上传局部模型更新的参数。由中央服务器协调完成多轮联邦学习以得到最终的全局模型。联邦学习消除了在单个设备上聚合所有数据的需要，是解决上述问题的有效途径，具有重要的研究价值和实际应用意义。

然而，在实际应用中，各个客户端之间的数据往往呈非独立同分布，训练过程中易产生“客户漂移”现象。在传统的联邦学习框架FedAvg下，全局模型朝着局部模型的平均模型方向更新，受数据非独立同分布的影响，各个客户端局部模型向各自的方向更新聚合后得到的全局模型与最佳全局模型偏差较大，导致联邦学习模型性能降低。因此，在异构环境下，如何降低联邦学习中异构性带来的模型性能影响成为联邦学习亟需解决的问题之一。

发明内容

为了解决上述问题，本发明提出了一种面向异构数据的对比联邦学习方法及系统，本发明在从模型相似度的角度建立异构环境下联邦学习的优化问题，结合对比学习思想在局部损失函数中添加了一个模型相似性对比项，并利用随机梯度下降的方法对局部模型进行更新。

根据一些实施例，本发明的第一方案提供了一种面向异构数据的对比联邦学习方法，采用如下技术方案：

一种面向异构数据的对比联邦学习方法，包括：

客户端利用当前轮次中当前次数局部更新的局部模型和上一次局部更新的历史局部模型的正余弦距离、当前轮次中当前次数局部更新的局部模型与当前全局模型之间的负余弦距离对当前局部模型进行优化，使得客户端当前轮次的局部模型靠近当前全局模型而远离上一轮次的局部模型，得到最新的局部模型；

服务端获取多个客户端的最新的局部模型进行聚合，更新全局模型。

进一步地，所述客户端的当前轮次的局部模型，包括：

客户端根据自身的本地数据进行模型训练，以构建对应的当前轮次的局部模型；

其中，所述本地数据为非独立同分布异构数据。

进一步地，所述服务端获取多个客户端的最新的局部模型进行聚合，更新全局模型，具体为：

其中，

是所有样本数目，每个客户端上有

个样本(x,y)来自于分布

，K是所有客户端的个数，

是M次局部更新后得到的上传到服务端参与第t+1轮次联邦学习的局部模型，

为联邦学习在服务端第t+1次聚合后的全局模型，

。

进一步地，所述当前轮次中当前次数局部更新的局部模型和上一次局部更新的历史局部模型的正余弦距离，具体为：

其中，

是当前轮次中第m次局部更新的局部模型，

是当前轮次中第m-1次局部更新的历史局部模型；M是当前轮次的局部模型与下一轮次的局部模型之间相差的局部更新次数；t是联邦学习在服务端的第t次聚合；

与

之间的正余弦距离越小，则两模型之间的相似度越低。

进一步地，所述当前轮次中当前次数局部更新的局部模型与当前全局模型之间的负余弦距离，具体为：

与

之间的负余弦距离为：

其中，

是当前轮次中第m次局部更新的局部模型，M是当前轮次的全局模型与下一轮次的全局模型之间相差的局部更新次数；

为联邦学习在服务端第

次聚合后的全局模型；

与

之间的负余弦距离越小，则两模型之间的相似度越高。

进一步地，为了达到让当前轮次的局部模型远离历史局部模型的同时，且不让当前轮次中第m-1次局部更新的历史局部模型的梯度信息对当前第m次局部更新的局部模型的训练造成影响的目的，引入梯度终止机制，在当前局部更新轮次对历史局部模型

采取梯度终止操作；

当前局部模型与历史局部模型之间的正余弦距离公式更新为：

其中，

是对

执行stop-grad操作，

是当前轮次中第m-1次局部更新的历史局部模型，

是当前轮次中第m次局部更新的局部模型。

进一步地，所述当前局部模型的优化目标表示为：

其中，

是当前轮次第m次的局部模型，

是当前轮次第m-1次局部更新的局部模型，M是当前轮次的局部模型与上下一轮次的局部模型之间相差的局部更新次数；

为联邦学习在服务端第

次聚合后的全局模型。

根据一些实施例，本发明的第二方案提供了一种面向异构数据的对比联邦学习系统，采用如下技术方案：

一种面向异构数据的对比联邦学习系统，包括：

局部优化模块，被配置为客户端利用当前轮次中当前次数局部更新的局部模型和上一次局部更新的历史局部模型的正余弦距离、当前轮次中当前次数局部更新的局部模型与当前全局模型之间的负余弦距离对当前局部模型进行优化，使得客户端当前轮次的局部模型靠近当前全局模型而远离上一轮次的局部模型，得到最新的局部模型；

全局更新模块，被配置为服务端获取多个客户端的最新的局部模型进行聚合，更新全局模型。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种面向异构数据的对比联邦学习方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种面向异构数据的对比联邦学习方法中的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明为了有效缓解数据异构性对模型的影响，需要对传统的联邦学习进行改进。对比学习的思想可以减小局部模型和全局模型之间的距离（即，减小参数差异），并增加当前轮次的局部模型和上一轮次局部模型之间的距离（即，加快收敛），使每个客户端都能够学习到接近全局模型的表示，以最小化局部模型差异。

2、本发明在从模型相似度的角度建立异构环境下联邦学习的优化问题，结合对比学习思想在局部损失函数中添加了一个模型相似性对比项，并利用随机梯度下降的方法对局部模型进行更新，降低联邦学习中异构性带来的模型性能影响。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的一种面向异构数据的对比联邦学习方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种面向异构数据的对比联邦学习方法，本实施例中，该方法包括以下步骤：

其中，所述客户端的当前轮次的局部模型，包括：

其中，所述本地数据为非独立同分布异构数据。

具体地，本实施例所述的方法，包括：

a.定义非独立同分布下的联邦学习损失函数

在数据非独立同分的条件下对联邦学习中局部损失函数进行定义，具体为：

共有K个客户端，

和

分别是第k个客户端的数据集和局部模型，k∈[K]。假设共有

个数据，其中

是第i个类别的数量，共有C类，每个客户端上有

个样本(x,y)来自于分布

。

定义损失函数为分类的交叉熵损失，对于第k个客户端，其优化目标是：

（1）

其中，

只与样本类别i和本地参数

有关，记为

，其关于

的梯度为：

。

需要说明的是，这里是对局部模型优化。用交叉熵损失函数对局部模型进行优化，但是，训练出的局部模型性能可能不够好。所以，给局部损失函数引入一个修正项，也就是余弦相似度那一项。后文中的局部模型的损失函数就是将这两项结合构成一个新的损失函数对局部模型进行训练，更好的优化局部模型。

因此，第k个客户端的局部模型更新为：

（2）

全局模型聚合过程为：

（3）

其中，

是所有样本数目。

记

为联邦学习FedAvg在服务端第

次聚合后的全局模型，

为第t+1次聚合后的全局模型，二者之间相差了M步局部更新的次数。即，每个客户端接收到服务端广播的

后，对局部模型

进行M次局部更新，依次得到：

，

，最后每个客户端更新后的局部模型

都上传到服务端聚合得到

。

因此，所述服务端获取多个客户端的最新的局部模型进行聚合，更新全局模型，具体为：

其中，

是所有样本数目，每个客户端上有

个样本(x,y)来自于分布

，K是所有客户端的个数，

为联邦学习在服务端第t+1次聚合后的全局模型，

。

b.定义模型之间的余弦距离

在联邦学习训练中，服务端聚合得到的全局模型性能要优于局部模型。局部训练的轮次越多累计的梯度误差越大，则局部模型与全局模型的距离越大，“客户漂移”现象越明显。所以，在每一轮次的局部更新时，要让当前第m次局部更新的模型远离历史第m-1次局部更新的模型，靠近当前轮次的全局模型。

因此，优化的目标就是使客户端当前轮次的训练的局部模型靠近全局模型而远离上一轮次的局部模型。结合对比学习思想，使用余弦相似度对局部训练模型进行优化：

（1）定义当前轮次中当前次数局部更新的局部模型与当前轮次中上一次局部更新的历史局部模型之间的正余弦距离

与

之间的正余弦距离为：

（4）

与

之间的正余弦距离越小，则两模型之间的相似度越低；

其中，

是当前轮次中第m次局部更新的局部模型，

（2）定义当前轮次中当前次数局部更新的局部模型与当前全局模型之间的负余弦距离

与

之间的负余弦距离为：

（5）

与

之间的负余弦距离越小，则两模型之间的相似度越高；

其中，

是当前轮次中第m次局部更新的局部模型，M是当前轮次的局部模型与下一轮次的局部模型之间相差的局部更新次数；

为联邦学习在服务端第

次聚合后的全局模型。

需要说明的是，本实施例中优化的最终的目的是：使客户端当前轮次的训练的局部模型远离上一轮次的局部模型。但是，前文中有提到两次聚合之间有M次局部更新，所以此处公式（4）和公式（5）中提到的当前局部模型与历史局部模型是相对于当前轮次中的M次局部更新来说。也就是说，当前局部模型是第m次局部更新后得到的局部模型，历史局部模型是第m-1次局部更新后得到的局部模型。让每一次局部更新时的局部模型都远离上一次局部更新时的模型（即，历史局部模型），最终实现当前轮次的局部模型远离上一轮次的局部模型。最终的目的是使客户端当前轮次的训练的局部模型远离上一轮次的局部模型。而正余弦距离是相对于当前训练轮次中局部更新的当前局部模型和历史局部模型，而非整个联邦学习过程中每一轮完整训练中的局部模型之间的正余弦距离。

c.引入梯度终止机制

在联邦学习中，局部训练的轮次越多累计的梯度误差越大，则局部模型与全局模型的距离越大，“客户漂移”现象越明显。为了达到让当前轮次的局部模型远离历史局部模型的目的，引入梯度终止机制，在当前局部更新轮次对历史局部模型

采取梯度终止操作。

（6）

其中，

是对

执行stop-grad操作，

是当前轮次中第m-1次局部更新的历史局部模型，

是当前轮次中第m次局部更新的局部模型。

此处是将梯度终止机制引入到余弦相似度这一项中，余弦相似度是用来修正模型更新方向的；

梯度终止是让

不从

接收梯度信息对当前局部训练参数造成影响，使余弦距离相似度仅作为拉远二者距离的存在，最终目的是优化局部模型。

d.建立基于对比学习技术的损失函数

基于模型相似性在客户端对联邦学习算法进行优化，并对当前局部模型、历史局部模型以当前全局模型进行余弦距离定义。此外，引入梯度终止机制在当前训练中对历史局部模型进行限制。定义一个新的局部损失函数项：

（7）

其中，

不会从

接收梯度信息对当前局部训练参数造成影响，仅作为拉远

与

的距离存在。

定义一个超参数

控制（7）式中损失函数项的权重，结合交叉熵损失函数构成局部损失函数，则局部损失函数表示为：

（8）

综上，利用对比学习方法建立非独立同分布数据的联邦学习问题，局部优化目标表示为：

（9）

其中，

是M次局部更新后得到的上传到服务端参与第t+1轮次联邦学习的局部模型；

是当前轮次中第m次局部更新的局部模型；是当前轮次中第m-1次局部更新的历史局部模型；M是当前轮次的局部模型与下一轮次的局部模型之间相差的局部更新次数；

为联邦学习在服务端第

次聚合后的全局模型。

全局优化问题的目标函数为：

（10）

e.联邦学习模型泛化误差分析

在公式（8）优化的联邦学习局部模型下，利用公式（3）使用加权平均的方法聚合接收到的局部模型得到全局模型，计算训练得到的联邦学习模型的泛化误差为：

（11）

算法通常是在实验中的有限样本上评估，因此，算法的评估可能对采样误差敏感。所以，对实验中采样数据的预测误差的测量可能不会准确的提供算法关于对新数据的预测能力信息。泛化误差是衡量算法能够在实际应用中预测对数据训练结果的准确程度的指标。本实施例此处提供泛化误差是对本实施例提出的算法训练出的模型在实际应用中对未知数据预测能力的泛化性分析。证明在本发明的方法下，训练出的模型在实际应用中具有较好的性能。

联邦学习能够实现在不上传本地原始数据的前提下通过生成的模型分析和训练多个客户端的数据，异构性会严重影响联邦学习模型的性能。为了有效缓解数据异构性对模型的影响，需要对传统的联邦学习进行改进。对比学习的思想可以减小局部模型和全局模型之间的距离（即，减小参数差异），并增加当前轮次的局部模型和上一轮次局部模型之间的距离（即，加快收敛），使每个客户端都能够学习到接近全局模型的表示，以最小化局部模型差异。

实施例二

本实施例提供了一种面向异构数据的对比联邦学习系统，包括：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种面向异构数据的对比联邦学习方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种面向异构数据的对比联邦学习方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。