CN113919508A

CN113919508A - 一种基于移动式服务器的联邦学习系统及方法

Info

Publication number: CN113919508A
Application number: CN202111201845.3A
Authority: CN
Inventors: 吴兰
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-11
Anticipated expiration: 2041-10-15
Also published as: CN113919508B

Abstract

本发明涉及一种联邦学习方法，尤其为一种基于移动式服务器的联邦学习系统及方法，包括移动式服务器与客户端，所述移动式服务器用于负责全局模型参数的储存与更新，通过与客户端相互合作，对模型参数进行传输与接收，进一步更新全局模型，基于模型知识迁移提出移动式联邦融合算法，当出现新的客户端时通过移动式服务器传递客户端所学知识来融合模型。通过实验验证，当客户端之间数据分布为独立同分布与非独立同分布时，本发明提出的移动框架性能均优于传统的联邦学习框架。

Description

一种基于移动式服务器的联邦学习系统及方法

技术领域

本发明涉及一种联邦学习方法，尤其是一种基于移动式服务器的联邦学习系统及方法。

背景技术

随着数据驱动的不断发展，保护数据隐私和安全已成为了人工智能发展的必要趋势。联邦学习可以在保护数据隐私、合法合规的前提下，进行机器学习用以解决数据孤岛的问题。联邦学习本质上是一种分布式机器学习框架，其目的是在保证数据隐私安全的基础上，实现共同建模，提升机器学习模型的效果。图1为横向联邦框架示意图，有四个步骤组成，首先，各客户端的本地模型训练；其次，各客户端把更新之后的模型参数发送给服务器；再次，服务器对各客户端发送的参数进行聚合；最后，服务器把聚合更新之后的参数发送各客户端。各客户端开始下一时刻的迭代，重复循环，直至整个训练过程收敛。

联邦学习方面，目前常用的聚合算法为联邦平均算法，其是为了获得Google应用程序的中心预测模型而开发的，可以嵌入到手机中以保护用户的隐私。该算法在服务器端根据各客户端数据大小对模型参数进行加权聚合，表示为

其中n_k为k第个客户端的样本数据大小，n为训练样本的总数，

为第k个客户端t+1时刻的模型参数。损失函数定义为

其中f_k(w)为第k个客户端的损失函数。进一步证明了联邦平均算法在Non-IID数据上的收敛性，但其收敛速度慢，通信成本较高；现有技术中提出了Fedprox算法，在FedAvg的基础上增加一个近似项，对全局模型进行优化并且允许了客户端的本地更新的差异性；现有技术中提出一个具有多个中心服务器的联邦学习框架，根据欧式距离把具有相似模型参数的客户端划分为一个中心服务器，以此来解决数据分布的差异性；其证明了当数据的非独立分布性增大时，全局模型对客户端本地数据的泛化误差也显著增加，造成训练出来的全局模型很难适应每个客户端的特定数据任务。

个性化联邦学习方面，常用的方法是，与迁移学习结合对客户端进行个性化建模。迁移学习是利用在解决一个问题中获得的知识来解决另一个相关问题。例如现有技术中将服务器训练的全局模型的部分或所有参数在客户端局部数据上被重新学习；其提出了一个具有泛化保证的理论框架，通过使用训练的全局模型参数来初始化对局部数据的训练；现有技术在非联邦环境中使用迁移学习来实现模型个性化；提出了一种基于相互知识迁移的去中心化联邦学习算法，即Def_KT，并对客户端模型进行个性化定制。尽管上述方法取得了不错的研究进展，但是，由于客户端之间设备的异质性会使得模型训练时间，上传速度不一样，实现完全同步较为困难。客户端数据分布差异较大时，将导致所训练出的模型参数分布差别大，服务器集中融合客户端模型将带来负效应，导致全局模型性能较差。基于此，提出一种基于移动式服务器的联邦学习系统及方法。

发明内容

本发明的目的是通过提出一种基于移动式服务器的联邦学习系统及方法，以解决上述背景技术中提出的缺陷。

本发明采用的技术方案如下：一种基于移动式服务器的联邦学习系统，包括移动式服务器与客户端，所述移动式服务器用于负责全局模型参数的储存与更新，通过与客户端相互合作，对模型参数进行传输与接收，进一步更新全局模型。

作为本发明的一种优选技术方案：所述移动式服务器与客户端相互合作具体为：移动式服务器端的模型初始化；移动式服务器把模型参数发送给第一个客户端，客户端上有两个步骤同时进行，一部分使用私有数据更新全部模型参数；另一部分则根据基础层数，使其固定，更新个性层建立个性化模型，把所更新的全部模型参数上传到服务器，通过移动式服务器对模型参数进行融合并移动到下一个客户端，以此循环。

一种基于移动式服务器的联邦学习方法：包括在联邦学习场景中，将K个客户端表示为(N₁,N₂,...,N_K)，其中第k个客户端的数据表示为(x_i,y_i)_k，在客户端使用梯度下降法对本地模型参数进行更新，公式如下：

移动式服务器端使用模型知识迁移算法对前两个客户端更新之后的模型参数进行聚合,并把更新之后的参数转移到下一个新出现的客户端，表示如下：

其中

为t回合N_k客户端的模型参数，

为t回合N_k-1客户端的模型参数，n_k-1为N_k客户端的数据大小，n_k-2为N_k-2客户端的数据大小。

作为本发明的一种优选技术方案：还包括通过客户端分为两个部分执行，一部分负责与服务器合作，另一部分则固定服务器发送的基础层参数，使用本地私有数据更新个性层模型参数，以此在本地建立个性化模型，假设W^m为客户端m的模型参数，其中基础层表示为

个性层表示为

公式如下：

其中

为第k个客户端t时刻的个性层；

为t时刻各客户端的基础层参数；

为第k个客户端的本地数据；b为批次大小。

作为本发明的一种优选技术方案：所述客户端中第k个客户端的损失函数，定义为

即用模型参数w对样本数据

所做的预测损失；假设有K个客户端用于划分数据，用u_k表示客户端k上数据点的索引值，令n_k＝|u_k|，于是有：

其中；

本发明的有益效果是：

1.提出了一种基于移动式服务器的联邦学习框架。基于模型知识迁移提出移动式联邦融合算法，当出现新的客户端时通过移动式服务器传递客户端所学知识来融合模型。通过实验验证，当客户端之间数据分布为独立同分布与非独立同分布时，本发明提出的移动框架性能均优于传统的联邦学习框架。

2.为着重考虑客户端本地模型性能，在基于移动式服务器的联邦学习框架下对客户端进行个性化定制学习。每一回合中，在客户端固定基础层参数，使用其本地数据更新个性层，以此建立个性化模型。通过实验给出了不同基础层下的个性化模型精度分析。

3.为降低通信轮数加快收敛速度，在三种数据集上进行了通信轮数对比分析，与基线方法对比，在达到相同的分类精度时，本发明所提出的移动联邦所需的通信轮数远小于基线方法，证明了本框架加快了模型的收敛速度。

附图说明

图1为本发明横向联邦框架示意图；

图2为本发明优选实施例中整体框架示意图；

图3为本发明优选实施例中MNIST数据集下全局模型精度对比图；

图4为本发明优选实施例中F-MNIST数据集下全局模型精度对比图；

图5为本发明优选实施例中CIFAR-10数据集下全局模型精度对比图；

图6为本发明优选实施例中不同基础层个性化模型精度对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明优选实施例提供了一种基于移动式服务器的联邦学习系统及方法，

其中，本实施例中为一种基于移动式服务器的联邦学习框架：

在联邦学习场景中，将K个客户端表示为(N₁,N₂,...,N_K)，其中第k个客户端的数据表示为(x_i,y_i)_k，在客户端使用梯度下降法对本地模型参数进行更新，公式如下：

其中

为t回合N_k客户端的模型参数，

客户端分为两个部分执行，一部分负责与服务器合作，另一部分则固定服务器发送的基础层参数，使用本地私有数据更新个性层模型参数，以此在本地建立个性化模型，假设W^m为客户端m的模型参数，其中基础层表示为

个性层表示为

公式如下:

其中

为第k个客户端t时刻的个性层；

为t时刻各客户端的基础层参数；

为第k个客户端的本地数据；b为批次大小。

对于第k个客户端的损失函数，定义为

即用模型参数w对样本数据

所做的预测损失。发明人假设有K个客户端用于划分数据，用u_k表示客户端k上数据点的索引值，令n_k＝|u_k|，于是发明人有：

在这里

整体框架如图2所示，包括移动式服务器与客户端两个部分。移动式服务器主要是负责全局模型参数的储存与更新，通过与客户端相互合作，对模型参数进行传输与接收，进一步更新全局模型。图2所示的网络模型假设为DNN网络结构，各框分别表示客户端1、客户端2、客户端n的本地数据，不同的色深表示数据不同的分布。具体有以下步骤，首先，移动式服务器端的模型初始化。其次，移动式服务器把模型参数发送给第一个客户端，客户端上有两个步骤同时进行，如图2步骤2所示，一部分使用私有数据更新全部模型参数(基础层参数和个性层参数)；如图2步骤3所示，另一部分则根据基础层数，使其固定，更新个性层建立个性化模型。然后，把步骤2所更新的全部模型参数通过步骤4上传到服务器。最后，通过移动式服务器对模型参数进行融合并移动到下一个客户端，以此循环。

本实施例还提出了一种基于移动式服务器的联邦学习算法：

算法主要分为两个部分，一部分由服务器执行，如算法1；一部分由客户端执行，如算法2。在算法1中，首先初始化服务器模型参数，并发送给第一个客户端，第一个客户端

使用初始化模型参数及本地数据更新新的模型参数，并把更新之后的参数返回给服务器，服务器使用公式(2)聚合模型参数，并迁移到下一个客户端，直到最后一个客户端，此为一个回合，以此循环。在算法2中，分为两个部分同时进行，一部分执行公式(1)更新全部参数，另一部分则根据基础层层数将其参数固定并使用公式(3)更新个性层，以此建立个性化模型。

算法1:移动式服务器端执行

算法2:客户端更新

本实施例使用了三个公共数据集，即MNIST、F-MNIST和CIFAR-10。MNIST数据集是一个具有70000张0-9手写数字体的图片数据集，其每一个图片都是28×28像素的灰度图像，有60000个样本的训练集和10000个样本的测试集；F-MNIST由来自10个类的70000张28×28像素的时尚物品图片组成，同样训练集有60000图像，测试集有10000图像；CIFAR-10包含来自10个类别32×32的RGB图像，被分成50000张的训练集和10000张的测试集。

本实施例所有实验都是基于torch框架，设备配置为Intel-i7、3.6GHzCPU和16GB运行内存。实验中，采用了三种类型的神经网络，即多层感知器(MLP)、深度神经网络(DNN)和卷积神经网络(CNN)。对于所有实验，客户端的总数K固定为10个，应用动量为0.9，批量大小为10，初始学习率为0.01的SGD优化器。实验考虑了两种设置，即训练数据在不同客户端上独立且同分布(IID)的同构设置和训练数据以非独立同分布(Non-IID)方式在客户端上分布的异构设置。对于IID设置，训练数据集中的数据样本打乱并随机分布到K个客户端中的每一个。对于Non-IID设置，大多数客户端仅拥有2类的数据。这种Non-IID设置是根据图像标签对数据进行排序，在排序的基础上把每300个数据划分为一组，并随机挑选两组作为一个客户端的本地数据。这种数据划分能够探索本实施例的方法对于具有异构分布的数据的健壮性。

为了比较所提出的方法和具有模型平均的基线方法的性能，发明人运行了以下实验。

1)MLP模型在IID设置和Non-IID设置的MNIST数据集上进行测试。在图3中，给出了本实施例方法与Def-KT、和FedAvg分别在IID和Non-IID情况下的全局分类精度对比；在表1对比了分别在IID设置和Non-IID设置下达到相同准确率需要的通信轮数。

2)DNN模型在客户端数据分布为IID和Non-IID的F-MNIST数据集上进行测试。在图4中，对于our、Def-KT和FedAvg，发明人在IID和Non-IID两种情况下绘制了全局分类精度与回合数的柱状图；表2对比了F-MNIST数据集分别在IID设置和Non-IID设置下达到相同准确率需要的通信轮数。

3)CIFAR-10数据集在客户端数据为IID设置和非IID设置下测试CNN模型。对于our、Def-KT和FedAvg，图5分别描述了在IID和Non-IID两种情况下全局分类精度与训练过程中的轮数的柱状图关系；表3对比了CIFAR-10数据集分别在IID设置和Non-IID设置下达到相同准确率需要的通信轮数。

4)个性化实验，对MNIST和F-MNIST数据的Non-IID设置进行客户端的个性化模型精度仿真。本实施例对每一个客户端都进行了个性化实验，为了衡量n个客户端的n种个性化模型，采用n个客户端模型精度的均值作为衡量标准与基线方法进行对比。实验结果如图6所示，横坐标为基础层层数，纵坐标为10个客户端的个性化模型的精度均值。

1)MNIST数据集中，从图3可以看出，在IID与Non-IID分别进行10轮、20轮、50轮训练模型训练，并与FedAvg、Def-KT两种方法对比。在IID设置下，本实施例方法在经过仅10轮训练，模型精度高达96.26％；在Non-IID设置下，由于客户端之间数据分布不一样，但经过10轮训练，仍然能达到86.36％。在两种情况下，随着训练轮数的增加，模型精度也线性提高，并优于FedAvg、Def-KT两种算法。

2)为了进一步验证本实施例方法，使用F-MNIST和CIFAR10数据集，其比MNIST更复杂，结果如图4、图5所示。使用本实施例方法，IID设置下，经过10轮模型训练，全局模型精度分别为88.92％、51.72％；Non-IID设置下，模型精度分别为61.08％、46.36％。Non-IID设置下没有IID设置下模型精度高的原因是数据更复杂，及客户端之间数据分布不同。随着训练轮数的增加，本实施例方法在这两种数据集训练的模型精度线性增长并均优于基线方法。这是由于FedAvg算法，在服务器端使用平均聚合，客户端之间分布差异大时平均聚合将给服务器端的全局模型带来负效应；Def-KT算法，把客户端分为两个集合，集合中相对应的客户端进行相互学习，同样，客户端之间数据分布不同时，将带来负学习。而本实施例提出的移动式联邦学习算法，经过模型知识移动，当出现新的客户端时，全局模型能够有效学习其本地模型，并进一步对全局模型进行建模。

4)从图6可以看出，DNN模型下分别在MNIST和F-MNIST中对比了不同基础层下的个性化模型分类精度。MNIST数据下，基础层为3层时，个性化模型准确率最高为88.333％，比基础层1层高16.333％，比基础层2层高14.666％，比基础层4层高10.333％；同样在F-MNIST数据集，基础层为3层时，个性化模型准确率最高为70.167％，比基础层1层高5.834％，比基础层2层高15.667％，比基础层4层高19％。由于基础层反映的是不同任务的一般特征，个性层为特定任务的个性特征。两种数据集下，当基础层数量为3层时，个性化模型精度最高。因此，在本实施例实验设置下，DNN网络前三层更适合作为基础层。

综上所述，在三种数据集上验证了本实施例所提出的一种基于移动式服务器的联邦框架，在IID设置和Non-IID设置下所训练出的全局模型的分类精度均优于基线方法，并在Non-IID设置下，对MNIST和F-MNIST两种数据集分析了不同基础层下所训练出的客户端本地模型精度。

1)对于MNIST数据集，从表1可以看出，IID设置时，全局模型的分类精度达到85±0.5，Def-KT约需30轮，FedAvg约需3轮，本实施例提出的移动联邦仅需要1轮；分类精度达到90±0.5，Def-KT约需35轮，FedAvg约需8轮，移动联邦仅需要4轮；分类精度达到95±0.5，Def-KT约需60轮，FedAvg约需13轮，移动联邦仅需要9轮。Non-IID设置时，全局模型的准确率达到70±0.5，本实施例所提出的移动联邦仅需要5轮，而Def-KT则约需50轮，FedAvg则约需7轮；分类精度达到80±0.5，Def-KT约需200轮，FedAvg约需16轮，移动联邦仅需8轮；全局模型的准确率达到90±0.5，本实施例所提出的移动联邦仅需18轮，而Def-KT则约需700轮，FedAvg则约需51轮。

表1 MNIST数据集通信轮数对比

2)F-MNIST数据集，表2可以看出IID设置时，全局模型的分类精度达到80±0.5，Def-KT约需20轮，FedAvg约需7轮，本实施例提出的移动联邦仅需2轮；分类精度达到84±0.5，Def-KT约需30轮，FedAvg约需19轮，移动联邦仅需8轮；分类精度达到89±0.5，Def-KT约需180轮，FedAvg约需45轮，移动联邦仅需20轮。Non-IID设置时，全局模型的准确率达到60±0.5，本实施例所提出的移动联邦仅需10轮，而Def-KT则约需25轮，FedAvg则约需20轮；分类精度达到65±0.5，Def-KT约需60轮，FedAvg约需50轮，移动联邦仅需20轮；全局模型的准确率达到70±0.5，本实施例所提出的移动联邦仅需50轮，而Def-KT则约需200轮，FedAvg则约需90轮。

表2 F-MNIST数据集通信轮数对比

3)CIFAR-10数据集，从表3可以看出IID设置时，全局模型的分类精度达到50±0.5，Def-KT约需400轮，FedAvg约需48轮，本实施例提出的移动联邦仅需要10轮；分类精度达到55±0.5，Def-KT约需800轮，FedAvg约需80轮，移动联邦仅需20轮；分类精度达到60±0.5，Def-KT约需900轮，FedAvg约需190轮，移动联邦仅需50轮。Non-IID设置时，全局模型的准确率达到45±0.5，本实施例所提出的移动联邦仅需10轮，而Def-KT则约需1500轮，FedAvg则约需17轮；分类精度达到50±0.5，Def-KT约需2500轮，FedAvg约需50轮，移动联邦仅需20轮；全局模型的准确率达到55±0.5，本实施例所提出的移动联邦仅需要50轮，而Def-KT越需3000轮，FedAvg约需200轮。

表3 CIFAR-10通信轮数对比

综上所述，本实施例所提出的移动式联邦学习框架，与基线方法Def-KT、FedAvg对比，在达到相同的分类精度时，所需的通信轮数远远低于基线方法，因此，本实施例所提出的移动式联邦学习框架具有更快的收敛速度。

针对集中式联邦学习实现完全同步不现实，且客户端之间数据分布差异较大时，服务器直接平均参数融合不同的模型将导致全局模型及客户端本地模型都存在分类精度低问题。本实施例提出了一种基于移动式服务器的联邦学习框架。首先，基于模型知识迁移提出移动式联邦融合算法，通过移动式服务器逐个传递客户端所学知识来融合模型，解决整体模型平均带来的分类性能较差的问题；其次，在移动式服务器的联邦学习框架下构建个性化联邦学习机制，解决了在Non-IID设置下，客户端本地模型分类性能较低的问题；最后，通过三种基准数据集的仿真实验，证明了方法的有效性，同时也从多方面论证了模型的性能。未来将继续使用移动联邦去分析更复杂场景下的工作。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于移动式服务器的联邦学习系统，其特征在于：包括移动式服务器与客户端，所述移动式服务器用于负责全局模型参数的储存与更新，通过与客户端相互合作，对模型参数进行传输与接收，进一步更新全局模型。

2.根据权利要求1所述的基于移动式服务器的联邦学习系统，其特征在于：所述移动式服务器与客户端相互合作具体为：移动式服务器端的模型初始化；移动式服务器把模型参数发送给第一个客户端，客户端上有两个步骤同时进行，一部分使用私有数据更新全部模型参数；另一部分则根据基础层数，使其固定，更新个性层建立个性化模型，把所更新的全部模型参数上传到服务器，通过移动式服务器对模型参数进行融合并移动到下一个客户端，以此循环。

3.一种基于移动式服务器的联邦学习方法，其特征在于：包括在联邦学习场景中，将K个客户端表示为(N₁,N₂,...,N_K)，其中第k个客户端的数据表示为(x_i,y_i)_k，在客户端使用梯度下降法对本地模型参数进行更新，公式如下：