CN114819069A

CN114819069A - 基于dbscan聚类的客户端选择联邦学习方法

Info

Publication number: CN114819069A
Application number: CN202210378145.XA
Authority: CN
Inventors: 马武彬; 鲁晨阳; 谢宇晗; 王翔汉; 吴亚辉; 周浩浩; 刘梦祥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-29

Abstract

本发明公开了基于DBSCAN聚类的客户端选择联邦学习方法，参数服务器初始化模型参数后，将初始化的模型发放给各客户端节点；各客户端节点执行本地训练的操作；各客户端节点将训练好的模型参数发回给参数服务器；参数服务器对收到的模型参数进行聚类，划分成不同的簇；参数服务器在不同的簇中，进行多轮的迭代学习，然后将每轮被选择客户端节点的模型参数按样本权重加权平均，最后得到全局模型。本发明在隐私保护的基础上，不需要知晓客户端的本地数据，采用DBSCAN的聚类算法对客户端节点的本地训练模型参数信息进行聚类，以降低数据非独立同分布带来的影响。

Description

基于DBSCAN聚类的客户端选择联邦学习方法

技术领域

本发明属于深度学习技术领域，尤其涉及基于DBSCAN聚类的客户端选择联邦学习方法。

背景技术

自2006年深度学习网络被提出以来，加上近年来算法和算力的巨大提升和大数据研究的兴起，人们广泛的认为人工智能迎来了第三个研究的高峰。然而，训练一个成功的模型往往需要巨大的数据量，过往的一些成功案例其实是伴随着大数据的发展带来的，但随着大数据的进一步发展，重视数据隐私和安全当前成了世界性的趋势。同时，各国都在加强对于公民隐私安全的保护，对用户数据隐私和安全管理的日趋严格将是世界趋势，这就给人工智能领域带来了巨大的挑战，如何在满足数据隐私、安全和监管的前提下，设计一个机器学习框架，让人工智能系统可以获取所需的数据，基于这个目标，一个可行的解决方式就是联邦学习。

联邦学习不必将所有数据集中到一个中心存储点就能训练机器学习模型，每一个拥有数据的客户端组织训练一个模型，然后综合这些模型，聚合得到一个全局的模型。在这个过程中，各个客户端交换模型信息的过程将会被精心设计，使得没有组织能够猜测到其他组织的隐私数据内容，这便是联邦学习(Federated Learning，后简称FL)的核心思想。联邦学习目的旨在建立一个基于分布数据集的联邦学习模型。联邦学习一般来说主要有两个过程，一个是模型训练一个是模型推理。在模型训练的过程中，模型相关的信息能够在各方之间交换(或者是以加密形式进行交换)，但数据不能。这一类交换不会暴露每个站点上数据的任何受保护的隐私部分。已经训练好的联邦学习模型可以置与联邦学习系统的各参与方，也可以在多方之间共享。

但是，传统的联邦学习应用到非独立同分布数据上时，效果并不理想。实验证明，当联邦学习的各节点数据分布差异过大时，训练出来的模型精度会大大降低。然而各节点的数据在现实的产生过程中，可能会受到其他节点或者本地环境的影响，各节点的数据往往是非独立同分布的，这就给联邦学习的应用带来了难题，即要如何去降低数据的非独立同分布带给联邦学习训练精度的影响。

为了解决日趋收紧的隐私保护要求和机器学习对于大量训练数据需求的矛盾，McMahan提出了一种基于迭代模型平均的深层网络联合学习方法，该方法的学习任务通过由中央服务器协调的客户端的松散联合来进行，该方法的一个主要优点是将模型训练和直接访问原始训练数据的需求分离开来，这在对数据隐私有严格要求或者数据难以集中共享的场景下有着重大的意义。该算法的流程是：初始化模型及各个参数，随机选择比例为C的客户端(0<C<1， C＝1表示全部客户端都参与更新)，中央服务器将初始化的模型参数发给选中的客户端，这些客户端基于本地的数据根据接受到的模型参数使用随机梯度下降(Stochastic gradient descent，SGD)算法实现优化。这种方法第一次提出了联邦学习的概念，由此开启了联邦学习的相关研究。

随着联邦学习研究的兴起，大量的问题也随之浮现，目前联邦学习面临的急切挑战：①数据的非独立同分布问题；②个人数据的隐私保护问题；③有限通信带宽下的训练问题；④面对恶意节点和攻击的鲁棒性；⑤联邦学习中的公平性问题。为了提高联邦学习效率和有效性的一个基本挑战就是非独立同分布数据(non-IID)的存在。

数据的非独立同分布情况在现实条件中广泛的存在，例如①非同分布的客户端分布，因为各客户端的数据是由本地产生的，不同客户端中的样本产生机制可能有差别(比如不同国家或者地区)；②特征分布倾斜(协变量漂移)，比如手写字体的识别中，即便是同一个字，不同的人写法也不一样；③标签分布倾斜(先验概率漂移)，例如中文的使用人群主要在中国，在外国使用的人比较少；④数量倾斜或者不平衡等。现实生活中各种情况都可能导致数据非独立同分布情况的出现。传统的机器学习都是基于数据独立同分布的假设，但是联邦学习不同于集中式的机器学习，未将数据集中的情况下，每个节点的数据是非独立同分布的。

为了解决联邦学习中数据的非独立同分布问题，Yue Zhao等人，对FedAvg 算法进行了改进，实验发现在数据处于非独立同分布时，应用FedAvg算法会有较高的精度损失，提出使用土方运算计算权重散度，能够提高联邦学习在 non-IID数据中的准确度，并且提出了一种数据共享的联邦学习策略，通过在中央服务器创建所有客户端设备之间全局共享的一小部分数据来改进对 non-IID数据的训练效果。在中央服务器创建所有客户端设备之间全局共享的数据来改进对non-IID数据的训练效果虽然可以降低数据倾斜带来的影响，但这种方式相当于人为加入了误差，并且共享数据的这一方式本质上违背了联邦学习对于数据隐私保护的原则，在实施上有很大的困难。

Muhammad等人为了提高联邦学习的训练效率，将联邦学习和推荐系统结合，提出了FedFast算法，该算法是FedAvg算法的改良版，基本流程与联邦平均算法相似，主要针对联邦学习的两个重点步骤：客户端选择和模型聚合进行了改良，在客户端选择上，提出了ActvSAMP方法，该算法首先采用 K-means方法对不同节点的推荐系统的相似度进行聚类，将所有节点分为不同的类，然后在不同的簇内随机抽取一定数量的节点参与训练。在对被选中的节点进行参数更新的同时，提出ActvAGG算法，利用每轮参与训练了的节点更新的梯度信息去更新同簇类未参与训练的节点信息，以达到更快收敛的目的，FedFast算法提出的主要目的是提高训练的效率，其聚类的方式是对推荐系统的信息进行聚类，对于非结合推荐系统的联邦学习方式不具有普适性，并且使用K-means方法聚类无法排除离群点的干扰，而且需要事先指定簇的数量，在实际情况下，中央服务器并不知道客户端的数据分布情况，也就无法事先指定要将客户端聚成多少个簇。

Sattler F等人提出了一种根据节点梯度或者更新信息进行动态划分的算法，提出传统的联邦学习都遵循一个核心假设：可以用一个模型满足所有客户端的要求。但事实上这并不准确，首先这个模型不一定足够精确去满足所有客户端的要求，其次各客户端的数据分布不一定相同，于是Sattler F等人提出了一个新的假设：存在一个合理的划分，使每个划分里面的节点都满足传统的联邦学习核心假设。利用各参与者的余弦相似度来进行划分，对于一个分类问题，首先求出所有节点的余弦相似度矩阵，然后将相似矩阵按从小到大将索引排序，每次取最小且处于不同分组的节点合并，直到最后只剩指定分类的组。这种方式同样也有需要事先指定聚类簇的数量、无法排除离群点干扰的问题。

发明内容

针对以上问题，本发明首先模拟了不同分布的数据以探究数据非独立同分布的程度对于联邦学习精度的影响。在对比实验中得出，随着数据分布倾斜的加深，联邦学习的效果越差。在清楚数据非独立同分布的影响后，为解决数据在数据极端不平衡时的联邦学习问题，将各节点本地训练后的模型参数信息采用DBSCAN算法进行聚类，使簇内的节点分布具有更高的相似性，再在各簇内分别进行联邦学习，最后得到多个适用于本簇的全局模型。本发明在本地模拟多个节点和参数服务器，实验证明可以有效降低数据非独立同分布带来的影响，从而产生更准确的模型。

针对现有技术存在的问题，本发明在不同数据集上模拟出不同分布的数据，得出了数据分布的倾斜程度会影响模型精度的结论。在数据分布极度不均衡的情况下，提出基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类的客户端选择联邦学习方法，通过先期聚类的方式，使簇内的客户端拥有较高的相似度以降低数据非独立同分布带来的影响。 DBSCAN是一种基于密度的聚类算法，它将簇定义为密度相连的点的最大集合，将具有足够高密度的区域划分为簇，对比K-Means，BIRCH这些只适用与凸样本集的聚类相比，DBSCAN可以在有噪声的空间数据中发现任意形状的聚类。DBSCAN聚类方法与K-Means等方法相比，有几点好处：①DBSCAN 不需要事先知道要形成的簇类数量；②DBSCAN可以发现任意形状的簇类；③DBSCAN可以发现噪声点，剔除某些恶意攻击的节点的影响。因此对比上述论文分簇的方法，本发明提出的方法不需要事先指定簇的数目，并且可以排除离群点的干扰，在实际中有更广泛的应用。

本发明公开的基于DBSCAN聚类的客户端选择联邦学习方法，包括以下步骤：

参数服务器初始化模型参数后，将初始化的模型发放给各客户端节点；

各客户端节点执行本地训练的操作；

各客户端节点将训练好的模型参数发回给参数服务器；

参数服务器对收到的模型参数进行聚类，划分成不同的簇(c₁,c₂,...)；参数服务器在不同的簇c中，进行多轮的迭代学习,然后将每轮被选择客户端节点的模型参数按样本权重加权平均，最后得到全局模型。

与现有技术相比，本发明的有益效果是：

证明了在联邦学习中，各节点数据的分布倾斜程度越深，联邦学习训练出来的全局模型精度越低；

在隐私保护的基础上，不需要知晓客户端的本地数据，采用DBSCAN的聚类算法对客户端节点的本地训练模型参数信息进行聚类，以降低数据非独立同分布带来的影响；

在本地模拟出客户端节点和参数服务器，在不同的数据集和训练模型上对本发明提出的算法进行了测试，实验证明了所提算法的有效性。

附图说明

图1本发明的联邦学习方法框架图；

图2本发明的不同分布的MNIST数据集测试精度图；

图3本发明的不同分布的CIFAR数据集测试精度图；

图4本发明的MNIST数据集分簇实验图；

图5本发明的CIFAR数据集分簇实验图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

常见的联邦学习机制由一个参数服务器和多个客户端节点组成，参数服务器负责收集节点上传的梯度信息，并运行优化算法对模型各参数进行更新，计算全局模型和参数；各节点在独立的对本地数据进行学习，每轮学习结束后，将学习的梯度信息上传到参数服务器，上传的参数信息由参数服务器计算得到全局模型和参数后，节点下载更新后的参数，覆盖掉本地的模型和参数后进行下一轮的迭代学习，在学习的过程中，数据只会在本地计算，将计算好的梯度信息上传到参数服务器，除了节点共同维护的全局参数，节点不能得到其他节点的任何信息，这样就维护了数据的机密性。本发明中，参数服务器、客户端节点，学习的参数都是本领域的公知常识，不再赘述。

在传统的联邦学习算法中，一个很重要的环节是按轮次从所有节点中抽取一定数目的节点参与训练来改进全局模型。FedAvg算法采用的是随机抽取的方式，随机的从全部节点中抽取指定数量的节点。该方法在面对独立同分布的数据，时非常有效，在面对非独立同分布的数据时，训练的效率和精度都会受到比较大的影响(详细数据见实验部分)。数据的分布倾斜越严重，训练的精度越低，如MNIST数据集在使用MLP训练的时候，一类非独立同分布数据对比独立同分布数据下降了4.53％的精度，二类非独立同分布数据对比独立同分布数据下降了15.98％。可见数据的非独立同分布情况极大的影响着联邦学习的训练质量。

在联邦学习的应用场景中，各个节点上的数据是独立的产生的，因此各节点的本地数据都不可能代表总体的分布，传统的联邦学习将数据视为独立同分布，只用一个模型去适用所有节点数据的方法是不可行的，为了降低数据的非独立同分布给模型精度带来的影响，在先期对用户进行聚类是个比较好的选择。

在相同的神经网络随机种子下，相似数据训练出来的神经网络参数是相似的，同时将训练出来的神经网络参数可视为高维的向量，对高维向量进行聚类，这就给在不需要获取节点数据情况下对节点进行聚类提供了可能，只要各节点上传本地训练的模型参数信息就行。

为了在所有的客户端节点中，找到合适的聚类，所有的节点客户端进行一次充分的本地学习，然后将学习的参数和梯度信息上传到参数服务器，由参数服务器对这些节点的模型参数运用DBSCAN聚类方法进行聚类，将所有的节点划分入不同的簇中，然后再在不同的簇中进行联邦学习。

算法1DCFL算法

步骤1-5是参数服务器执行的操作，在初始化模型参数后，将初始化的模型发放给各节点，由节点执行本地训练的操作，然后节点将训练好的模型参数发回给参数服务器，然后由参数服务器对收到的模型参数进行聚类，划分成不同的簇(c₁,c₂,...)，步骤5是在不同的簇c中，进行多轮的迭代学习, 然后将每轮被选择节点的模型参数按样本权重加权平均，最后得到全局模型；步骤6-9是客户端节点执行的操作，每轮被选择的节点在接收到参数服务器发来的全局模型后，利用本地数据进行本地的迭代训练，将训练后的模型参数再发回给参数服务器。

为了模拟实际场景，我们搭建如下实验环境：一台Ubuntu系统、i9处理器64位的电脑，搭载2080Ti显卡，负责全部的计算工作。

在本地模拟节点和参数服务器，将数据集的数据按照不同的抽样方式分到不同的节点之中，节点在本地训练自己的数据，然后由程序对节点训练出来的模型参数信息进行聚合，然后分发给下一轮训练的节点。

为了模拟出数据的不同分布情况，以对数据集中数据独立不放回的抽样方式模拟节点数据的独立同分布，以对数据集按标签排序后，切片后划分入不同节点的方式模拟数据的非独立同分布情况，non-IID划分中，每个节点只会拥有两种标签的数据，non-IID2划分中，每个节点近似只拥有一种标签的数据，所以数据的倾斜程度更高。

实验一共分出了100个节点，每个节点的数据占总数据量的1％，数据集采用了Mnist和Cifar-10数据集进行实验，本地的神经网络模型采用了MLP 和CNN两种神经网络模型。

数据倾斜程度对联邦学习影响实验：

采用Mnist和Cifar-10数据集，在数据分布上采用三种分布方式，分别是独立同分布，一类非独立同分布和二类非独立同分布，采用传统的联邦学习算法：FedAvg方法分别在不同的数据分布上运行，对比其测试准确率的变化情况，运行结果如图2-图5所示：

图2-图5显示了100轮迭代训练后得到的模型精度，IID表示数据是独立同分布的，non-IID和non-IID2的数据都是非独立同分布的，但是non-IID2 的数据倾斜程度比non-IID要深。可以看出，随着数据分布的不平衡加深，模型的训练质量也在变低。数据的分布倾斜越严重，训练的精度越低，如MNIST 数据集在使用MLP训练的时候，一类非独立同分布数据对比独立同分布数据下降了4.53％的精度，二类非独立同分布数据对比独立同分布数据下降了 15.98％。可见数据的非独立同分布情况极大的影响着联邦学习的训练质量。

表1不同分布数据100轮训练后的精度

	MNIST	CIFAR
			IID(MLP)	97.64％	52.52％
non-IID(MLP)	93.11％	35.44％
			non-IID2(MLP)	81.66％	20.70％
IID(CNN)	98.64％	55.03％
			non-IID(CNN)	95.88％	42.16％
non-IID2(CNN)	78.23％	14.60％

客户端选择实验

首先在MNIST数据集上评估DCFL算法的性能，MNIST是一个手写体数据集，一共有六万个训练集和一万个测试集。

本次实验一共有100个节点，为了测试算法在数据分布极不平均的情况下算法的作用，只实验在non-IID2划分下的情况。联邦学习的输入变量属于优化的范畴，在这里不加以考虑，所以选择默认值。为了测试算法的性能，设置实验对比FedAvg算法和DFCL算法训练出来的模型在测试集上的准确率(Test accuracy)。

首先在中央服务器初始化全局模型，然后所有节点接收到初始的全局模型进行充分的本地训练，将本地训练的模型参数上传到中央参数服务器，由参数服务器对节点的模型参数信息进行聚类。

在MNIST数据集下，将客户端聚为两个簇时，对比使用原始FedAvg方法使用全部训练集训练的全局模型在各簇测试集上的准确率，和在簇内训练的模型在本簇内的准确率，结果如图2和图3所示；

在non-IID2型数据上进行联邦学习时，由于各节点本地数据分布差异过大，学习的曲线容易出现较大的波动，因此在学习的时候应设置较小的学习率和较大的C(每轮抽样的客户端数占全体客户端的比例)值，由图4可以看出，对比传统的联邦学习算法，在non-IID2的数据集上，DCFL具有比 FedAvg算法更高的准确率，具体数值如下表：

表2Mnist数据集上模型测试准确率

	Clust1	Clust2
			FedAvg(MLP)	87.83％	73.42％
DCFL(MLP)	90.87％	88.76％
			FedAVG(CNN)	45.72％	41.95％
DCFL(CNN)	62.98％	75.6％

综上，MNIST数据集在分簇的情况下，每个簇内使用DCFL训练出来的模型都比使用传统FedAvg算法有较大提升。使用MLP模型训练时，第一和第二个簇分别提升了3.04％、15.34％。

Cifar-10数据集是一个用于识别普适物体的小型数据集，一共包含了如飞机、汽车等10个类别的RGB彩色图片，对比MNIST数据集来说，Cifar-10 是3通道的彩色RGB图像，MNIST是灰度图像，相比与手写字符，Cifar-10 含有的是现实世界中真实的物体，不仅噪声很大，而且物体的比例、特征都不尽相同，这也为识别带来了很大的困难，可以从图5看出，面对非独立同分布数据的时候，采用FedAvg算法训练出来的模型精度受到了极大的影响。在100轮迭代后模型的具体测试精度如表3所示。

表3Cifar-10数据集上模型测试准确率

	Clust1	Clust2
			FedAvg(MLP)	11.02％	36.12％
DCFL(MLP)	40.02％	47.45％
			FedAVG(CNN)	10.24％	7.96％
DCFL(CNN)	11.65％	9.22％

Cifar-10数据集受数据的非独立同分布影响较大，当数据处于极端的非独立同分布时，模型的精度会急剧下降10-20％，但通过对模型进行聚类后，因为簇内的数据non-IID性得到了降低，在MLP模型中训练出来的模型精度分布提高了29％和11.33％，近似达到了数据独立同分布的水平；而在CNN模型中，由于数据非独立同分布带来的影响过大，提升十分有限。

本发明针对联邦学习中，节点数据非独立同分布问题提出了一种基于 DBSCAN聚类的客户端选择联邦学习方法(DCFL)。在联邦学习的客户端节点数据属于非独立同分布的情况下，通过对各节点本地训练的模型参数聚类的方式将各节点划分如不同的簇中，提升簇内数据的相似度，减轻了数据的不同分布带来的影响，从而提高了模型的训练精度。

本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X 使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于DBSCAN聚类的客户端选择联邦学习方法，应用于参数服务器和多个客户端节点，其特征在于，包括以下步骤：

获取学习数据；

各客户端节点执行本地训练的操作；

各客户端节点将训练好的模型参数发回给参数服务器；

参数服务器对收到的模型参数进行聚类，划分成不同的簇(c₁,c₂,...)；

参数服务器在不同的簇中，进行多轮的迭代学习，然后将每轮被选择客户端节点的模型参数按样本权重加权平均，最后得到全局模型。

2.根据权利要求1所述的基于DBSCAN聚类的客户端选择联邦学习方法，其特征在于，在所述多轮的迭代学习中，每轮被选择的客户端节点接收到参数服务器发来的全局模型后，利用本地数据进行本地的迭代训练，将训练后的模型参数再发回给参数服务器。

3.根据权利要求1所述的基于DBSCAN聚类的客户端选择联邦学习方法，其特征在于，所述模型参数包括学习的参数和梯度信息。

4.根据权利要求1或3任一所述的基于DBSCAN聚类的客户端选择联邦学习方法，其特征在于，将训练出来的模型参数视为高维向量，对高维向量进行聚类。

5.根据权利要求1所述的基于DBSCAN聚类的客户端选择联邦学习方法，其特征在于，所述的迭代学习方法为联邦学习方法。