CN113191503B

CN113191503B - 一种非共享数据的去中心化的分布式学习方法及系统

Info

Publication number: CN113191503B
Application number: CN202110554246.3A
Authority: CN
Inventors: 王好谦; 赵晨栋
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-06-09
Anticipated expiration: 2041-05-20
Also published as: CN113191503A

Abstract

本发明公开了非共享数据的去中心化的分布式学习方法和系统，所述方法是一种含锚方法的集群联邦学习优化方法，包括如下步骤：系统初始化、局部计算、中心聚合、模型更新。在FedAvg算法的基础上，人为设定多个集群，以满足非独立同分布的数据分布，提高模型收敛速度；并通过含锚方法的集群联邦学习优化方法，明显提高了联邦学习技术在面对非独立同分布数据时的收敛速度与稳定性，较好地利用了客户端数据非独立同分布的特征，能极大提高模型训练时的稳定性和收敛速度，并有效地提高了模型的泛化性能。

Description

一种非共享数据的去中心化的分布式学习方法及系统

技术领域

本发明涉及分布式学习方法及系统，尤其涉及一种非共享数据的去中心化的分布式学习方法及系统，即联邦学习方法及系统。

背景技术

在当今工业界许多数据密集型任务例如推荐系统、图像识别等，其实现依赖海量的数据。但由于行业顶尖巨头公司垄断大量数据，因隐私要求不能共享数据以联合建模，“数据孤岛”问题成为目前人工智能行业一大技术难题。在此背景下，联邦学习应运而生，其保证学习参与方不共享本地数据的同时联合建立一个全局的共享模型。联邦学习的优化问题与传统分布式学习有很大不同，首先联邦学习不同于分布式学习的中心调度节点数据，其需要保证用户数据安全不外泄。在应用层面，由于各参与方地理、时间各异，硬件、资源不同，联邦学习经常要处理非独立同分布的数据。最后，全局模型训练过程中还必须考虑到联邦学习的通信是比较慢速且不稳定的，应尽可能提高通信效率，即尽可能地减少客户端上传或下载庞大模型参数的次数。

机器学习算法特别是复杂的深度模型，其参数量十分庞大，比如常规的卷积神经网络可能包含上百万个参数，再加上服务器—客户端通信是否可靠、传输速度等问题，决定了联邦学习优化算法必须将通信成本作为重要的考虑之一。目前，主流的做法是增加客户端计算量，本地更新几步后再上传，从而减少通信次数。

其次，联邦学习的客户端设备存在异构性，各客户端计算能力，通信能力均不相同，如果让所有客户端均参与训练，那必会产生迭代落后的情况，甚至某些客户端宕机都会导致训练进行不下去。因此，目前主流的解决方法是基于固定规则或协议每轮迭代只选择部分客户端参与，在减少客户端无响应可能性的同时也可加速收敛过程。

综上所述，客户端-服务器架构的联邦学习流程包括以下四个步骤：

系统初始化。由服务器发送建模任务，寻找参与客户端。将模型初始参数向各参与方发送。

局部计算。在收到中心模型参数后，客户端利用本地数据做有限步的局部更新，并将更新后参数或梯度脱敏后上传，以便下轮全局模型更新。

中心聚合。在收到多个参与方的计算结果后，服务器做聚合操作。

模型更新。服务器根据聚合结果对全局模型做更新，并将其发送给下一轮迭代的参与客户端。当全局模型性能足够好时，停止训练。

最传统的联邦学习算法——FedAvg(联邦平均算法)是目前应用广泛的一种优化算法。其核心思想是让客户端采用随机梯度下降法做本地模型优化，中心服务器做平均聚合。目标函数定义为：

其中，M为客户端数量，ω为全局模型当前参数，

为方差函数。FedAvg算法简单且易于实现，但在实际应用中，面对非独立同分布数据以及神经网络等复杂模型引入的非凸目标函数，其朴素的取平均方法也导致了模型收敛慢速、不稳定等情况出现。

总之，由于客户端设备异构、数据分布各异，模型优化时必须要考虑训练数据非独立同分布和客户端-服务器间通信效率的问题，使得联邦学习的优化问题是现阶段该领域最大的挑战之一。

发明内容

本发明为了解决现有的问题，提供一种非共享数据的去中心化的分布式学习方法和系统，提升收敛速度和稳定性。

为了解决上述问题，本发明采用的技术方案如下所述：

一种非共享数据的去中心化的分布式学习方法，其特征在于包括如下步骤：S1、系统初始化:服务器对同一结构模型随机初始化参数k份作为k个集群的初始模型，每轮迭代开始时随机选择固定数量的一批参与本轮运算的客户端并将这k个集群的此轮的锚参数分发至各客户端；其中k是自然数；S2、局部计算：在每个参与本轮运算的客户端上，向k个集群模型分别输入本地数据并得到目标函数的损失值，选择最小损失值所对应的集群模型，使用随机梯度下降法本地训练此集群模型τ步，得到的参数与当前对应集群的“锚”参数做融合并向服务器返回此参数；S3、中心聚合、模型更新：服务器对k个集群做汇总，对各集群本轮迭代收到的参数做平均聚合为此轮迭代此集群的全局模型，也为下一轮此集群的“锚”参数。

在一些实施例中，还包括如下特征：

所述非共享数据的去中心化的分布式学习是拥有m个客户端的联邦学习框架，服务器可和各客户端通过预先定义的通信协议交流信息，m为自然数。

步骤S1中，假设总共有k种数据分布

m个客户端的本地数据均服从其中某个数据分布，/>

k为自然数，人为设计k组集群模型初始参数，使得各客户端上特定数据分布可从属至对应集群并在有限训练过程中更新其参数。

所述步骤S2中包括：S2-1、在第t轮t∈{0,1,…,T-1}中，服务器随机选择部分客户端作为本轮参与方

向它们发送当前k个全局模型参数/>

此也是本轮迭代计算的锚。

所述步骤S2中还包括：S2-2、每个参与方接受参数并逐个计算本地经验损失F_i(·)，选择经验损失最小即认为从属该集群，即

所述步骤S2中还包括：S2-3、继续在该集群模型上使用随机梯度下降法更新τ步，得到更新后的本地参数

使用锚方法计算出最终的本地参数

其中α是“拉回”变量，表示控制向锚靠拢的力度，并将其与/>

共同发送给服务器。

所述步骤S3具体包括：服务器收到所有参与方返回的信息后，对每个集群j∈{1,2,…,k}汇总本轮迭代中属于此集群的参与方M_t,j及数量(假设有n个)，得到下一轮此集群的全局模型

依此循环，直到达到预先根据经验设定的全局迭代次数T。

服务器对各集群返回模型参数做平均聚合，得到此集群的全局模型及下轮迭代的“锚”参数。

本发明还提出一种非共享数据的去中心化的分布式学习系统，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序可被处理器执行以实现如上所述的方法。

本发明还提出一种计算机介质，其特征在于，存储有计算机程序，所述计算机程序可被执行以实现如上所述的方法。

本发明的有益效果为：提供一种非共享数据的去中心化的分布式学习方法，在FedAvg算法的基础上，人为设定多个集群，以满足非独立同分布的数据分布，提高模型收敛速度；并通过含锚方法的集群联邦学习优化方法，明显提高了联邦学习技术在面对非独立同分布数据时的收敛速度与稳定性。

本发明公开的联邦学习框架下针对非独立同分布数据的优化方法，较好地利用了客户端数据非独立同分布的特征，能极大提高模型训练时的稳定性和收敛速度，并有效地提高了模型的泛化性能

附图说明

图1是本专利申请的基于客户端—服务器架构的联邦学习流程图。

图2是本专利申请的集群联邦学习的流程示意图。图例包含两个集群，五个客户端。

图3是本专利申请的“锚”方法的示意图。图例为包含两个客户端的某集群，τ＝2，T＝3。

图4是本专利提出方法与FedAvg算法训练过程中收敛情况对比。

具体实施方式

下面结合具体实施方式并对照附图对本专利申请作进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本专利申请的范围及其应用。

参照以上附图，将描述非限制性和非排他性的实施例，其中相同的附图标记表示相同的部件，除非另外特别说明。

如图1所示，所述非共享数据的去中心化的分布式学习是拥有m个客户端的联邦学习框架，所述方法包括以下步骤：

系统初始化:服务器对同一结构模型随机初始化参数k份作为k个集群的初始模型，每轮迭代开始时随机选择固定数量的一批参与本轮运算的客户端并将这k个集群的参数(也为此轮的锚参数)分发至各客户端。如图2所示是包含两个集群、五个客户端的例子。

我们考虑一个拥有m个(实际应用场景中可包含上千个)客户端的联邦学习框架，服务器可和各客户端通过某些预先定义的通信协议交流信息。我们可以假设总共有k(k为自然数，以下描述个数、条数等的字母m、i、n、j、l、τ、t等均同，不再说明)种数据分布，

m个客户端的本地数据均服从其中某个数据分布，/>

但具体服从哪个分布不得知。考虑每个/>

的客户端包含n条独立且同分布的样本z^i,1,…,z^i,n，每条样本包含特征及响应z^i,l＝x^i,l,y^i,l)。目标函数定义为/>

我们的目标是最小化

即需找到/>

且足够接近于/>

argmin_θ∈ΘF^j(θ),j∈[k]。初始化k个模型初始参数/>

对应k个集群，给定全局迭代次数T，每轮局部迭代次数τ。

局部计算：在每个参与本轮运算的客户端上，向k个集群模型分别输入本地数据并得到目标函数的损失值，选择最小损失值所对应的集群模型，使用随机梯度下降法本地训练此集群模型τ步，得到的参数与当前对应集群的“锚”参数做融合并向服务器返回此参数；

首先，在第t轮t∈{0,1,…,T-1}中，服务器随机选择部分客户端作为本轮参与方

向它们发送当前k个全局模型参数/>

(也是本轮迭代计算的“锚”)。每个参与方接受参数并逐个计算本地经验损失F_i(·)，选择经验损失最小即认为从属该集群，即/>

继续在该集群模型上使用随机梯度下降法更新τ步，得到更新后的本地参数/>

使用“锚”方法计算出最终的本地参数/>

(其中α是“拉回”变量，控制向锚靠拢的力度)并将其与/>

共同发送给服务器。

中心聚合、模型更新：最服务器对k个集群做汇总，对各集群本轮迭代收到的参数做平均聚合为此轮迭代此集群的全局模型，也为下一轮此集群的“锚”参数。

服务器收到所有参与方返回的信息后，对每个集群j∈{1,2,…,k}汇总本轮迭代中属于此集群的参与方M_t,j及数量(假设有n个)，得到下一轮此集群的全局模型

依此循环，直到达到预先根据经验设定的全局迭代次数T。

上述实施例中，引入锚方法是其一大典型特点，图3所示为锚方法的示意图。

训练好各集群模型后，在测试阶段，我们随机选择若干个客户端作为测试客户端，将所有集群模型发送至测试客户端，测试客户端在所有模型上运行精度测试，选择最高精度的集群模型的测试结果为最终的测试结果。

在每轮迭代中，数据分布各异的各客户端会在k个全局模型参数中的某个上收敛更快、损失函数值最小，即将此模型参数视为其潜在的集群属性，在其找到对应的集群后，每个模型都会被同样分布的数据训练，所以这种训练的收敛速度是平稳且快速的。同时，由于我们拥有多个全局模型可覆盖不同的数据分布，这种方法也极大提高了泛化性能。

本申请上述实施例给出了一种含锚方法的集群联邦学习优化方法，实现了各客户端在不共享数据的情况下做联合建模，明显提高了联邦学习技术在面对非独立同分布数据时的收敛速度与稳定性。主要优势为：

1)在FedAvg算法的基础上，人为设定多个集群，以满足非独立同分布的数据分布，提高模型收敛速度。

2)引入锚方法，可减小参与方数据异构导致模型融合时收敛不稳定的影响。

3)对比FedAvg算法，我们的方法具有更好的泛化性能。

所述方法有如下特点：

1、本分布式学习方法满足联邦学习框架下对客户端数据隐私性的要求，客户端之间无数据交流，客户端与服务器只交换模型参数信息。

2、考虑到各客户端数据非独立同分布，且每一客户端数据分布情况也未知。为充分利用此异质性以加速收敛，人为设计k组集群模型初始参数，使得各客户端上特定数据分布可从属至对应集群并在有限训练过程中更新其参数。

3、各客户端经本地训练后得到的模型参数会与本轮对应集群的“锚”参数融合，向服务器返回的是融合后的参数。“锚”参数的引入可以帮助稳定收敛过程。

4、服务器对各集群返回模型参数做平均聚合，得到此集群的全局模型及下轮迭代的“锚”参数。

5、联邦学习提供一种对客户端数据隐私保护策略，原始用户数据永远不会离开本地，仅通信模型更新信息(如梯度)，各客户端拥有完全自主权，可决定是否参与此轮训练或通信。

6、由联邦学习的非独立同分布假设，客户端的数据属于不同分布，属于不同分布的客户端本地更新方向可能会不一致，服务器做平均聚合就可能导致全局模型更新缓慢甚至不稳定等现象发生。此方法中服务器对同一结构模型随机初始化k份为k个集群初始模型，向每个参与本轮训练的客户端同时发送k个模型，客户端分别计算损失，选择损失值最小的模型并认为属于该集群。所有属于该集群的可视为数据分布相似，对属于同一集群的客户端做平均聚合有利于该模型加速收敛。

7、“锚”参数即为上一轮迭代该集群最终的模型参数，客户端本地更新后会与此参数融合作为最终本地模型参数。这一步的目的是缓解客户端数据分布差异过大导致收敛不稳定的情况，向“锚”靠拢即为向该集群的代表性更新方向靠拢，使模型对异常分布数据鲁棒性更强，收敛更为稳定。

8、所有属于某一集群的可视为数据分布相似，对属于同一集群的客户端做平均聚合有利于该模型加速收敛。

以下实验可验证我们的方法在目标函数非凸的情况下依然可以训练出不错的效果。

数据集及实验搭建：我们分别在MNIST和CIFAR10数据集(现有技术中的两种经典的数据集)上进行试验。为模拟数据分别存放在各客户端并服从不同分布的联邦学习场景，我们使用随机旋转的数据增强手段：分别将训练集旋转0，90，180，270度作为四种数据分布，即k＝4。给出m个客户端均拥有n张数据，我们随机分配所有经扩增后的数据给各客户端，并保证某客户端只含有旋转相同角度的数据。对测试集处理方法相同，也分配给各客户端。对CIFAR10数据集处理大致与上述相同，唯一不同是设置两个集群(k＝2)，对应旋转0，180度。这样的设置可以尽可能地模拟出应用于业界的联邦学习面对非独立同分布的场景。

模型配置及训练过程：我们使用ReLU激活函数的全连接多层感知器作为模型，单隐层(包含200个隐层节点)训练MNIST数据集，使用包含两个卷积层，两层全连接层的卷积神经网络训练CIFAR10数据。我们作比较的基线算法是前文提到的FedAvg算法。在MNIST数据集上的实验中，我们设置每轮所有客户端均参与训练，本地更新步数τ＝10。CIFAR10数据集上的实验设置每轮随机挑选10％的客户端参与训练，τ＝5。为了实验的严谨性，我们分别改变客户端数量及每个客户端上样本的数量，统一对基线算法和我们的方法均做全局更新300次，统一设置每个参与方上每次迭代的批大小为128，学习率设置0.01。在我们的方法中，经多次实验我们发现设置锚方法中的“拉回”变量α＝0.6是效果最好的，所以在训练中均采用此超参数。

测试结果说明：测试阶段，我们对每个参与的测试客户端均发送训练好的所有的k个模型，在客户端分别使用这k个模型去测试，取测试精度最高的模型作为测试结果。最终，我们将所有测试客户端上的测试精度做平均，实验结果如下表所示：

表1：本专利提出的方法在不同客户端数量上与FedAvg算法在测试集上的实验结果对比。

从表中我们可以看到，我们的方法较基线方法有了明显的的精度提升。在程序运行中，我们可以逐渐发现每个客户端潜在的集群属性，在其找到对应的集群后，每个模型都会被同样分布的数据训练，所以这种训练的收敛速度是平稳且快速的。作为基线的FedAvg算法的思想则是尝试去拟合所有的分布，导致泛化能力下降。图4为在MNIST数据集、设置客户端数量为1200时我们的方法与FedAvg算法训练过程损失曲线对比。可以看出，我们的方法在收敛过程中是平稳且快速的。

上述具体实施方式完整阐释了本专利申请的一种完整地含锚方法的集群联邦学习优化方法，可使模型收敛过程快速且稳定，并显著提高了模型泛化性能。

尽管已经描述和叙述了被看作本专利申请的示范实施例，本领域技术人员将会明白，可以对其作出各种改变和替换，而不会脱离本专利申请的精神。另外，可以做出许多修改以将特定情况适配到本专利申请的教义，而不会脱离在此描述的本专利申请中心概念。所以，本专利申请不受限于在此披露的特定实施例，但本专利申请可能还包括属于本专利申请范围的所有实施例及其等同物。

Claims

1.一种非共享数据的去中心化的分布式学习方法，其特征在于包括如下步骤：

S1、系统初始化:服务器对同一结构模型随机初始化参数k份作为k个集群的初始模型，每轮迭代开始时随机选择固定数量的一批参与本轮运算的客户端并将这k个集群的此轮的锚参数分发至各客户端；其中k是自然数；

S2、局部计算：在每个参与本轮运算的客户端上，向k个集群模型分别输入本地数据并得到目标函数的损失值，选择最小损失值所对应的集群模型，使用随机梯度下降法本地训练此集群模型τ步，得到的参数与当前对应集群的锚参数做融合并向服务器返回此参数；

包括：S2-1、在第t轮t∈{0,1,…,T-1}中，服务器随机选择部分客户端作为本轮参与方

向它们发送当前k个全局模型参数/>

此也是本轮迭代计算的锚；T表示预先根据经验设定的最大迭代次数，m表示m个客户端；

S3、中心聚合、模型更新：服务器对k个集群做汇总，对各集群本轮迭代收到的参数做平均聚合为此轮迭代此集群的全局模型，也为下一轮此集群的锚参数；

以提高在面对非独立同分布数据时的收敛速度与稳定性，从而能适应客户端设备异构、数据分布各异、训练数据非独立同分布和客户端-服务器间通信效率低的数据密集型任务。

2.如权利要求1所述的方法，其特征在于，所述非共享数据的去中心化的分布式学习是拥有m个客户端的联邦学习框架，服务器可和各客户端通过预先定义的通信协议交流信息。

3.如权利要求2所述的方法，其特征在于：步骤S1中，假设总共有k种数据分布

m个客户端的本地数据均服从其中某个数据分布，人为设计k组集群模型初始参数，使得各客户端上特定数据分布可从属至对应集群并在有限训练过程中更新其参数。

4.如权利要求1所述的方法，其特征在于，所述步骤S2中还包括：S2-2、每个参与方接受参数并逐个计算本地经验损失F_i(·)，选择经验损失最小即认为从属该集群，即

5.如权利要求4所述的方法，其特征在于，所述步骤S2中还包括：S2-3、继续在该集群模型上使用随机梯度下降法更新τ步，得到更新后的本地参数

使用锚方法计算出最终的本地参数/>

共同发送给服务器。

6.如权利要求1所述的方法，其特征在于，所述步骤S3具体包括：服务器收到所有参与方返回的信息后，对每个集群j∈{1,2,…,k}汇总本轮迭代中属于此集群的参与方M_t,j及数量n，得到下一轮此集群的全局模型

依此循环，直到达到预先根据经验设定的全局迭代次数T。

7.一种非共享数据的去中心化的分布式学习系统，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1-6中任一项所述的方法。

8.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序可被执行以实现如权利要求1-6中任一项所述的方法。