CN112181971B

CN112181971B - 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统

Info

Publication number: CN112181971B
Application number: CN202011166681.0A
Authority: CN
Inventors: 王田; 刘艳; 尹沐君; 於志勇; 高振国; 张忆文
Original assignee: Fuzhou University; Huaqiao University
Current assignee: Fuzhou University; Huaqiao University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-11-01
Anticipated expiration: 2040-10-27
Also published as: CN112181971A

Abstract

本发明提出一种基于边缘的联邦学习模型清洗和设备聚类方法、系统、设备和可读存储介质，方法包括：根据设备所在的局域网地址，对设备聚类，将在每个局域网部署一个移动边缘节点服务器；参与训练的终端设备接收到云端发来的全局模型，在本地数据上训练得到本地更新模型；计算终端设备本地更新模型参数与全局模型参数间的余弦相似度；判定所述余弦相似度是否大于设定阈值，若余弦相似度大于设定阈值的本地更新模型，传输到移动边缘节点服务器参与边缘聚合，得到簇模型；将局域网的簇模型发送到云端参与全局聚合，得到全局聚合模型。本发明提出的方法能够在减少不必要的通信开销和避免服务器高并发访问带来的传输延迟的情况下提高联邦学习通信效率的方法。

Description

一种基于边缘的联邦学习模型清洗和设备聚类方法、系统

技术领域

本发明涉及边缘智能的联邦学习领域，特别是指一种基于边缘的联邦学习模型清洗和设备聚类方法、系统。

背景技术

由于行业竞争和保护数据隐私的结果，在大多数行业中，数据往往以孤岛的形式存在。即使在同一家公司，不同部门之间的数据整合也面临着巨大的阻力，更不用说整合来自各个机构的数据，这在现实中几乎是不可能的。此外，随着大数据的进一步发展，对数据隐私和安全的重视已成为全球趋势。因此，通过把终端数据发送到云端进行深度学习的传统机器学习方式面临着极大的挑战。作为人工智能(Artificial Intelligence,AI)的核心技术，联邦学习(Federated Learning,FL)是解决这一挑战的一种很有前途的方法。在FL的学习过程中，由云服务器维护的全局模型为所有终端设备共享，终端设备仅需在其本地数据集上对全局模型训练，并将训练好的本地更新上传到云服务器参与全局聚合，然后不断迭代这一过程。联邦学习的整个过程都没有涉及到数据的传输，因而它保护了数据的隐私和安全，并且在保护数据隐私的情况下实现了机器学习(Machine Learning,ML)的目的。

然而，FL的通信效率仍然面临许多挑战。一方面，部署在终端设备上的高级ML应用程序越来越多地使用复杂的神经网络，因此本地更新通常包含较大的梯度向量。相比之下，终端设备与云服务器之间的网络通常存在两个问题：1)网络的带宽有限，且高带宽服务的服务器成本昂贵；2)本地和云端之间的网络连接具有不对称特性：网络的上行速度通常比下行速度慢很多。因此，当大量的终端设备参与联邦学习时，对服务器的高并发访问势必会增加模型传输的通信延迟，网络的不稳定也会导致训练瓶颈。另一方面，参与FL的设备存在异构性，参与训练的本地数据往往是服从非独立同分布(Non-independently identicallydistribution,Non-IID)的，因此这些设备和数据训练的本地模型往往是差强人意的，这些本地模型可以称之为脏模型。如果来自脏模型的本地更新被发送到云端参与聚合，这不仅会严重影响全局模型的精度，还增加了额外的通信成本。因此，减少FL的网络占用变得至关重要。

近两年来，很多联邦学习领域的研究学者对提高联邦学习通信效率问题做了相关的工作。CMFL(Communication-Mitigated Federated Learning)是一种减少通信的联邦学习方法，它通过计算全局更新和本地更新之间符号相同的参数的数量来确定本地更新的重要性，比如，那些满足

的本地更新被认为不重要，不会被上传，其中u_j表示上一次全局迭代的全局模型参数，

表示当前全局迭代中的本地模型参数，从而减少了联邦学习的通信开销。直观地看，虽然模型更新的参数符号决定了模型参数在各维数的改进方向(增加或减少)，但参数的值也反映了模型参数在各个方向上的变化程度。例如，在典型的softmax回归模型中，模型参数的值可以理解为各个类别的softmax概率值，因此本地更新与全局模型对应的参数值应该是相似的。如果全局模型和本地模型对应参数的符号相同，但参数值相差很大，直观上我们认为这两个模型参数没有关系。换言之，现有的提高联邦学习效率的方法过于片面，没有考虑到模型参数在多维上的差异性和服务器高并发带来的延迟问题。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种通过计算全局模型参数和本地模型参数之间的余弦相似度来清洗与全局模型相似度较低的本地模型，并利用移动边缘节点聚合属于同一局域网的本地模型，从而在减少不必要的通信开销和避免服务器高并发访间带来的传输延迟的情况下提高联邦学习通信效率的方法。

本发明采用如下技术方案：

一种基于边缘的联邦学习模型清洗和设备聚类方法，包括：

根据设备所在的局域网地址，对设备聚类，将不同的局域网划分为不同的簇，每个簇相互独立，且部署一个移动边缘节点服务器；

参与训练的终端设备接收到云端发来的全局模型，在本地数据上训练得到本地更新模型；

计算终端设备本地更新模型参数与全局模型参数间的余弦相似度；

判定所述余弦相似度是否大于设定阈值，若余弦相似度大于设定阈值的本地更新模型，并将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型；

将局域网的簇模型发送到云端参与全局聚合，通过最小化全局损失函数得到全局聚合模型。

具体地，所述根据设备所在的局域网地址，对设备聚类，具体为：

cluster_m＝{i|A_i∈A_m}

其中A_i为终端设备i的LAN地址，cluster_m表示属于局域网A_m的设备聚类的结果，m表示局域网的标号。

具体地，所述计算终端设备本地更新模型参数与全局模型参数间的余弦相似度，具体为：

其中G_t-1＝[g₁，g₂，...，g_s]为第t-1次迭代的全局模型，L_t＝[l₁，l₂，..，l_s]为第t次迭代的本地更新模型，s表示模型参数的维度，t表示迭代次数，j＝1，2，3...s。

并将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型，其中所述边缘聚合，得到簇模型具体为：

其中D表示参与学习的数据总大小，D_i表示设备i参与学习的数据大小，f_i(w)表示设备i训练的模型的损失函数，F_c(w)表示簇模型。

本发明另一方面提供一种基于边缘的联邦学习模型清洗和设备聚类系统，包括：

设备聚类模块：根据设备所在的局域网地址，对设备聚类，将不同的局域网划分为不同的簇，每个簇相互独立，且部署一个移动边缘节点服务器；

本地更新模块：参与训练的终端设备接收到云端发来的全局模型，在本地数据上训练得到本地更新的本地更新模型；

计算模块：计算终端设备本地更新模型参数与全局模型参数间的余弦相似度；

边缘聚合模块：判定所述余弦相似度是否大于设定阈值，若余弦相似度大于设定阈值的本地更新模型，并将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型；

全局聚合模块：将局域网的簇模型发送到云端参与全局聚合，通过最小化全局损失函数得到全局聚合模型。

具体地，所述设备聚类模块用于根据设备所在的局域网地址，对设备聚类，具体为：

cluster_m＝{i|A_i∈A_m}

具体地，计算模块用于计算终端设备本地更新模型参数与全局模型参数间的余弦相似度，具体为：

所述计算终端设备本地更新模型参数与全局模型参数间的余弦相似度，具体为：

边缘聚合模块用于将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型，其中所述边缘聚合，得到簇模型具体为：

本发明再一方面还提供一种设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述基于边缘的联邦学习模型清洗和设备聚类方法。

本发明又一方面还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述基于边缘的联邦学习模型清洗和设备聚类方法。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

针对已有的提高联邦学习效率的方法只考虑全局模型参数和本地模型参数在对应参数符号上的差异，忽视了对应参数符号在数值和方向上的变化，同时也没有考虑到联邦学习多参与设备训练模式下对服务器的高并发访问带来的传输延迟；本发明通过计算全局模型参数和本地模型参数之间的余弦相似度来清洗那些与全局模型相似度较低的本地模型，来实现清洗那些与全局模型收敛方向无关的本地模型，并在不同的局域网部署移动边缘节点用于收集和聚合清洗后的本地模型。本发明提出的方法能够极大的节约成本，在服务器带宽相同的条件下，减少了访问服务器的设备数，避免了服务器高并发访问带来的模型传输延迟和避免不必要的通信开销，能够在大规模联邦学习模型训练的情况下提高学习的通信效率，且模型清洗效率高，模型参数在方向和数值两个维度上比较比在单个维度上效率更高。

附图说明

图1是本发明实施例所提出方法的模型示意图；

图2是softmax回归模型在MNIST数据集上进行联邦学习的训练结果；图(a)训练结果精度对比图，图(b)为训练结果损失对比图；图(c)为训练时间对比图；

图3是卷积神经网络模型在MNIST数据集上进行联邦学习的训练结果。图(a)训练结果精度对比图，图(b)为训练结果损失对比图；图(c)为训练时间对比图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

如图1是本发明实施例所提出方法的模型示意图，首选通过设备聚类，再进行模型清洗以及边缘聚合，最后进行全局聚合，并进行多次迭代。

具体的，本发明提供一种基于边缘的联邦学习模型清洗和设备聚类方法，包括：

将局域网的簇模型发送到云端参与全局聚合，得到全局聚合模型。

具体是经过多次全局迭代后全局模型的损失值趋于稳定，最终得到最优全局模型。

cluster_m＝{i|A_i∈A_m}

其中D表示参与学习的数据总大小，D_i表示设备i参与学习的数据大小，f_i表示设备i训练的模型的损失函数，f_i(w)表示为本地更新模型，F_c(w)表示在局域网c的移动边缘节点上对该局域网内本地更新局部聚合后得到的簇模型。

具体地，所述将局域网的簇模型发送到云端参与全局聚合，得到全局聚合模型，具体为：

其中D_c表示局域网c中参与联邦学习的数据大小，F_c(w)表示在局域网c的移动边缘节点上对该局域网内本地更新局部聚合后得到的簇模型。

具体地，所述经过多次全局迭代后全局模型的损失值趋于稳定，最终得到最优全局模型参数，具体为：

w_T＝argminF(w)

其中w_T表示经过T次全局迭代后得到的最优全局模型。

边缘聚合模块：判定所述余弦相似度是否大于设定阈值，若余弦相似度大于设定阈值的本地更新模型，并将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型。在softmax回归和CNN两种机器学习算法上的实验结果显示，当使用CNN算法作为联邦学习的算法时，阈值设为0.9999能获得最佳学习性能，当使用softmax回归算法作为联邦学习的算法时，阈值设为0.98能获得最佳学习性能；

cluster_m＝{i|A_i∈A_m}

w_T＝argminF(w)

其中w_T表示经过T次全局迭代后得到的最优全局模型。

我们评估了两种不同机器学习算法在MNIST数据集上进行联邦学习的训练结果，模型包括softmax回归和卷积神经网络(Convolutional Neural Network，CNN)，图2和图3是对应的实验结果，其中，图(a)训练结果精度对比图，图(b)为训练结果损失对比图，图(c)为训练时间对比图。实验的数据处理方法是加入70％的噪声。其中，传统FL表示仅在FAvg算法下进行联邦学习，eFL是我们提出的基于边缘的模型清洗和设备聚类方法并设置了最佳的阈值，不带脏标签的FL表示参与联邦学习的数据未加噪声。因为在复杂的移动边缘网络中，终端设备的数据质量不如传统集中式学习，存在错误的数据，数据是根据用户的喜好生成的，数据分布不一样。实验中在数据中添加噪声数据能够更好地体现本发明方案在实际场景中的适用性与有效性。通过实验我们可以看到，我们提出的模型清洗和设备聚类方法在减少通信轮数和减少训练时间上明显优于传统的联邦学习，且较接近在未加数据噪声的条件下通过联邦学习方法训练的结果。

其中，MNIST数据集是包含从数字0到9的70,000个手写数字图像，图像为灰度图像，尺寸为28×28，由60,000个样本的训练集和10,000个样本的测试集组成。

本发明再一方面还提供一种设备，其特征在于，包括：

存储器，用于存储程序指令；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于边缘的联邦学习模型清洗和设备聚类方法，其特征在于，包括：

将局域网的簇模型发送到云端参与全局聚合得到全局聚合模型；

所述根据设备所在的局域网地址，对设备聚类，具体为：

cluster_m＝{i|A_i∈A_m}

2.根据权利要求1所述的一种基于边缘的联邦学习模型清洗和设备聚类方法，其特征在于，所述计算终端设备本地更新模型参数与全局模型参数间的余弦相似度，具体为：

3.根据权利要求1所述的一种基于边缘的联邦学习模型清洗和设备聚类方法，其特征在于，并将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型，其中所述边缘聚合，得到簇模型具体为：

4.一种基于边缘的联邦学习模型清洗和设备聚类系统，其特征在于，包括：

本地更新模块：参与训练的终端设备接收到云端发来的全局模型，在本地数据上训练得到本地更新模型；

全局聚合模块：将局域网的簇模型发送到云端参与全局聚合，得到全局聚合模型；

设备聚类模块用于根据设备所在的局域网地址，对设备聚类，具体为：

cluster_m＝{i|A_i∈A_m}

5.根据权利要求4所述的一种基于边缘的联邦学习模型清洗和设备聚类系统，其特征在于，计算模块用于计算终端设备本地更新模型参数与全局模型参数间的余弦相似度，具体为：

6.根据权利要求4所述的一种基于边缘的联邦学习模型清洗和设备聚类系统，其特征在于，边缘聚合模块用于将所述本地更新模型传输到移动边缘节点服务器参与边缘聚合，得到簇模型，其中所述边缘聚合，得到簇模型具体为：

7.一种设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至4任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至4任一项所述的方法。