CN112070240B

CN112070240B - 一种高效通信的分层联邦学习框架及其优化方法和系统

Info

Publication number: CN112070240B
Application number: CN202010929585.0A
Authority: CN
Inventors: 张尧学; 邓永恒; 吕丰; 任炬
Original assignee: Tsinghua University; Central South University
Current assignee: Tsinghua University; Central South University
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-10-14
Anticipated expiration: 2040-09-07
Also published as: CN112070240A

Abstract

本发明公开了一种高效通信的分层联邦学习框架及其优化方法和系统，该框架包括：一个云聚合器、多个边缘聚合器和多个分布式计算节点；在每轮云聚合迭代中，边缘聚合器首先从云聚合器下载全局学习模型，每个分布式计算节点从其关联的边缘聚合器下载全局学习模型，训练模型更新上传到关联的边缘聚合器；边缘聚合器聚合接收模型更新并聚合发送回关联的计算节点，经过多次边缘聚合迭代后，将边缘模型更新上传到云聚合器；云聚合器将多个边缘模型聚合后得到全局模型更新发送回所有的边缘聚合器；重复边缘聚合以及云聚合迭代，直至全局模型达到目标精度。该优化方法采用通信开销最小化作为优化目标。本发明提高学习性能的同时，可降低系统的通信开销。

Description

一种高效通信的分层联邦学习框架及其优化方法和系统

技术领域

本发明涉及大规模分布式边缘智能框架的性能优化技术，尤其涉及一种高效通信的分层联邦学习框架及其优化方法和系统。

背景技术

随着移动设备的普及率越来越高，网络边缘产生的数据日益增多。这些数据通常通过网络传输到云端集中存储，借助机器学习算法，可以有效地提取出数据的特征，为智能服务的发展奠定了基础。但是，移动设备产生的数据大多是隐私数据，在网络传输过程中面临隐私泄露的风险。为了保护数据隐私，联邦学习一改传统的集中式学习模式，提出每个分布式计算节点利用本地数据协作学习全局模型的新方法。这样，数据不必离开设备，只有计算节点学习到的模型更新被传输到云端聚合，然后更新云上的全局模型并将其发送回计算节点以进行下一轮的学习。所以，联邦学习可以在保护数据隐私的同时，不断地提高全局模型的质量。

在联邦学习中，高效的通信对学习效率至关重要。因为需要足够多轮次的云端模型聚合才能使模型达到令人满意的精度。尤其是当分布式计算节点的数据为非独立同分布时，需要的聚合次数会更多。并且，通过实验发现，频繁的模型更新对于优化全局模型很重要。但矛盾的是，分布式的计算节点通常受限于通信、带宽等资源，这使得它们难以与云端进行频繁的通信。另外，随着学习模型的结构变得越来越复杂(例如深度神经网络)，模型更新的数据量显著增长，这更加剧了联邦学习的通信开销。

目前已经有一些关于提高联邦学习通信效率的研究。例如，Alistarh等人提出模型更新压缩方案以减少每轮的通信开销，但代价是模型精度和收敛速度等学习性能的降低。还有一些研究试图减少模型达到目标精度所需要的总聚合次数或者模型更新数量。例如，Wang等人提出了一种动态识别不重要的模型更新的方案，以此减少模型更新的数量，提高通信效率；Ji等人提出可以动态调整参与节点的数量并且摒弃掉不重要的模型更新。但是，为了保证学习性能，现有的研究对通信开销的改善仍然有限。并且他们在模型更新的选择和排除方面可能会出现偏差，导致学习性能的下降。

为了向用户提供更好的基于机器学习模型的智能服务，模型需要更好的学习性能。但是，达到令人满意的学习性能需要足够多轮次的网络通信和模型聚合，这给计算节点和网络都带来了沉重的负担。与现有的工作不同，本发明探索了一种完全不同的降低通信开销的方式，即将通信成本很高的模型聚合过程从云端迁移到边缘进行。节点、边缘与云端构成了一个分层联邦学习框架，在此框架下研究了如何进一步降低通信开销。

尽管在少数现有工作中提及了分层联邦学习框架的概念，例如，Liu等人为分层联邦学习框架设计了协同训练算法HierFAVG；Luo等人基于一个资源调度模型试图降低分层联邦学习框架的计算和通信成本。但是，在现有的工作中，分层联邦学习框架的潜力尚没有被充分挖掘，并且本发明考虑的通信开销最小化的问题也鲜少被提及。

发明内容

本发明提供了一种高效通信的分层联邦学习框架及其优化方法和系统，用以解决现有技术中为了保证学习性能，对通信开销的改善有限以及学习性能的下降的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种高效通信的分层联邦学习框架，包括：一个云聚合器、多个边缘聚合器和多个分布式计算节点；每个云聚合器与多个边缘聚合器关联，每个边缘聚合器与两个以上的分布式计算节点关联；

在每轮云聚合迭代中，边缘聚合器首先从云聚合器下载全局学习模型，每个分布式计算节点从其关联的边缘聚合器下载全局学习模型，用本地数据训练模型，再将模型更新上传到关联的边缘聚合器；边缘聚合器聚合接收到的来自相关联的两个以上的分布式计算节点的模型更新并聚合，将聚合后的模型发送回关联的计算节点，以进行下一轮次的边缘聚合迭代；

每个边缘聚合器经过多次边缘聚合迭代后，将边缘模型更新上传到云聚合器；云聚合器将来自多个边缘聚合器的多个边缘模型聚合后得到全局模型，并将全局模型更新发送回所有的边缘聚合器，以进行下一轮次的云聚合迭代；

重复边缘聚合以及云聚合迭代，直至全局模型达到目标精度。

优选地，边缘聚合器从候选边缘聚合器中选取，候选边缘聚合器从多个分布式计算节点中选取。

本发明还提供一种根据上述的高效通信的分层联邦学习框架的优化方法，包括以下步骤：

将计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小作为分层联邦学习框架的优化目标；定义为通信开销最小化问题；

将通信开销最小化问题转化为两个子问题：在每一轮次的云聚合中，通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本；以及通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵；

并通过参数γ调整总通信成本与平均相对熵之间的权重；

求解通信开销最小化问题，获得最优的计算节点和边缘聚合器的关联组合，以及最佳边缘聚合器集合。

优选地，通信开销最小化问题的目标函数如下：

上述的目标函数满足以下约束：

其中，

是分布式计算节点的数量，二进制变量x_e∈{0,1}用来标志候选边缘节点e∈

是否被选作边缘聚合器，等于1表示e被选作边缘聚合器，否则为0；二进制变量y_ne∈{0,1}用来标志分布式计算节点

是否被关联到边缘聚合器e，关联为1，否则为0；

(X,Y)为通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本；J_d(X,Y)为通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵；

约束(4)要求不能选择候选边缘聚合器以外的节点作为边缘聚合器；

约束(5)要求每个分布式计算节点必须与一个且仅能与一个边缘聚合器关联；

约束(6)要求每个分布式计算节点只能与已被选为边缘聚合器的候选节点相关联；

约束(7)限制每个边缘聚合器e最多能与B_e个计算节点相关联。

优选地，在每一轮次的云聚合中，通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本，目标函数如下：

其中，κ_c为边缘聚合的次数，c_ne为节点n将模型更新上传到它关联的边缘聚合器e的通信开销；c_ec为边缘聚合器e将边缘模型更新上传到云聚合器的通信开销。

优选地，通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵，目标函数如下：

s.t.constraints:(4),(5),(6),(7),(8),(9),

其中，ε为选出的边缘聚合器集合，即满足

P_u表示均匀分布，D_KL(P_e||P_u)表示P_e与P_u之间的相对熵；P_n＝P(D_n)表示分布式计算节点n的数据分布，D_n为节点n的训练数据集，

表示边缘聚合器e的数据分布，

为与边缘聚合器e关联的计算节点集合。

优选地，获得最优的计算节点和边缘聚合器的关联组合，转化为以下目标函数：

上述的目标函数满足以下约束：

并按照以下步骤求解上述目标函数：

遍历所有待关联的分布式计算节点和尚未达到关联上限的边缘聚合器，计算

的值，ΔJ_ne的第一项κ_cc_ne代表计算节点n与边缘聚合器e之间的通信开销，第二项

Δd表示将节点n关联到边缘聚合器e后平均相对熵减少量，其中Δd＝D_KL(P_e+P_n||P_u)―D_KL(P_e||P_u)；

基于计算得到的ΔJ_ne值，找到使得ΔJ_ne的值最小的分布式计算节点n和边缘聚合器e的组合，然后将它们关联；

重复执行上述过程直到所有的计算节点都被关联。

优选地，获得最佳边缘聚合器集合，包括以下步骤：

定义

为给定边缘聚合器集合

时目标函数(13)的最优值，并且，如果

不满足式(14)-(17)的约束，则规定

定义：

为给定边缘聚合器集合

时目标函数式(12)的最优值；

随机选择一个不在当前解

中的候选边缘聚合器e，计算

的值，如果存在某个候选边缘聚合器e可以使得

便将e加入到当前解集合

随机选择一个当前解

中的边缘聚合器e，计算

的值，如果存在某个边缘聚合器e可以使得

便将e从当前解集合

中移除；

随机选择一个不在当前解

中的候选边缘聚合器e，以及在当前解

中的边缘聚合器e′，计算

的值，如果存在一个e和e′对可以使得

便将e加入到当前解集合

然后将e′从当前解集合

中移除。

本发明还公开一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的步骤。

本发明具有以下有益效果：

1、本发明的高效通信的分层联邦学习框架，能够完成大规模广范围内的分布式移动边缘节点的协同机器学习模型训练。通过选择一部分节点作为边缘聚合器，频繁的模型聚合便可以以很低的通信开销在边缘实现。不仅可以显著减少分布式联邦学习系统的通信开销，还可以提高模型的精度，以更少的成本为用户提供更好的基于机器学习模型的智能服务。

2、本发明高效通信的分层联邦学习框架的优化方法和系统，在边缘聚合器选择和关联计算节点时综合考虑通信开销和数据分布，尽量将节点关联到距离较近的节点，同时也尽量使得边缘聚合器的数据分布接近均匀分布。不仅可以减少每轮通信的开销，并且可以显著减少达到目标模型精度需要的迭代轮次，在减少分布式联邦学习系统总的通信开销的同时，提高目标模型的精度。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的高效通信的分层联邦学习框架的结构示意图；

图2是本发明优选实施例的高效通信的分层联邦学习框架的优化方法的流程示意图；

图3是本发明优选实施例的不同的边缘数据分布下得到的模型精度的示意图；

图4是本发明优选实施例的优化的分层联邦学习框架的学习精度和通信开销的性能的示意图；

图5是本发明优选实施例的优化的分层联邦学习框架在不同的参数设置下学习精度和通信开销的性能的示意图；

图6是本发明优选实施例的优化的分层联邦学习框架在不同的权衡系数设置下学习精度和通信开销的性能的示意图；

图7是本发明优选实施例的优化的分层联邦学习框架在不同的网络拓扑下学习精度和通信开销的性能的示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参见图1，本发明的高效通信的分层联邦学习框架，包括：一个云聚合器、多个边缘聚合器和N个分布式计算节点(用

表示)；每个云聚合器与多个边缘聚合器关联，每个边缘聚合器与两个以上的分布式计算节点关联。实施时，由于分布式计算节点的本地存储数据通常是位置和设备相关的，假设分布式计算节点的训练数据是非独立同分布的(与实际系统相符)。在

中，有一部分节点可被选作边缘聚合器，称他们为候选边缘聚合器，用集合

表示。即边缘聚合器从候选边缘聚合器中选取，候选边缘聚合器从多个分布式计算节点中选取。

在每轮云聚合迭代中，边缘聚合器首先从云聚合器下载全局学习模型，每个分布式计算节点从其关联的边缘聚合器下载全局学习模型，用本地数据训练模型，每个计算节点在经过κ_e次本地训练迭代后，再将模型更新上传到关联的边缘聚合器；边缘聚合器聚合接收到的来自相关联的两个以上的分布式计算节点的模型更新并聚合，将聚合后的模型发送回关联的计算节点，以进行下一轮次的边缘聚合迭代；

每个边缘聚合器经过κ_c次边缘聚合迭代后，将边缘模型更新上传到云聚合器；云聚合器将来自多个边缘聚合器的多个边缘模型聚合后得到全局模型，并将全局模型更新发送回所有的边缘聚合器，以进行下一轮次的云聚合迭代；

基于上述的高效通信的分层联邦学习框架，本发明还提供一种根据上述的高效通信的分层联邦学习框架的优化方法，在分层联邦学习框架中，定义通信开销最小化问题如下：给定一组移动计算节点

和候选边缘聚合器

如何确定一组边缘聚合器集合以及它们关联的移动计算节点，使得计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小。即将计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小作为分层联邦学习框架的优化目标；定义为通信开销最小化问题：

定义x_e∈{0,1}是一个二进制变量，用来标志候选边缘节点

是否被选作边缘聚合器，等于1意味着e被选作边缘聚合器，否则设置为0.二进制变量y_ne∈{0,1}用来标志计算节点

是否被关联到边缘聚合器e，关联设置为1，否则设置为0.定义c_ne为节点n将模型更新上传到它关联的边缘聚合器e的通信开销，κ为达到目标精度的云聚合总数。则移动计算节点与边缘聚合器之间的总通信成本可表示为：

其中，

是计算节点与边缘聚合器之间的关联结果。类似地，定义c_ec为边缘聚合器e将边缘模型更新上传到云聚合器的通信开销，则边缘聚合器与云聚合器之间的总通信开销可表示为：

其中，

为边缘聚合器的挑选结果。那么，通信开销最小化问题则可以公式化表示为：

其中，约束(4)意味着不能选择候选边缘聚合器以外的节点作为边缘聚合器，约束(5)意味着每个节点必须与一个且仅能与一个边缘聚合器关联，约束(6)要求每个节点只能与已被选为边缘聚合器的候选节点相关联。考虑到边缘设备的通信资源通常有限，因此在(7)中限制了每个边缘聚合器e最多能与B_e个计算节点相关联。

上述通信开销最小化问题很难求得最优解，因为一方面要决定X和Y的值以最小化每轮云聚合的通信开销，另一方面要尽可能地减少需要的云聚合轮次数κ。但是κ往往是无法预知的，并且，X和Y的决策无形中会影响κ的取值，这使得问题变得更加复杂。为了有效地解决通信开销最小化问题，本发明实施例提出了一套优化框架SHARE。图2表示的是本实施例的SHARE的流程，其中包括问题转化和算法设计两部分。在问题转化部分，可以从两个方向优化系统的通信开销，即最小化每轮次云聚合的通信开销和减少需要的云聚合次数。所以SHARE首先沿着这两个方向把问题转化为了两个子问题，即本实施例进一步将通信开销最小化问题转化为两个子问题：子问题1是每轮次通信开销最小化问题，目的是最小化每轮次云聚合的通信开销。子问题2则是为了减少需要的云聚合的总轮次数κ。

通过实验表明，通过合理地关联计算节点到边缘聚合器，使得边缘聚合器的数据分布接近均匀分布，可以显著减少达到目标模型精度需要的云聚合轮次数。实验结果如图3所示，图3(a)是边缘聚合为LeNet-5方式的达到目标模型精度需要的云聚合轮次数；图3(b)是边缘聚合为ResNet-18方式的达到目标模型精度需要的云聚合轮次数。Edge-IID(边缘独立同分布)表示关联计算节点到边缘聚合器使得边缘聚合器的数据分布为独立同分布，Edge-Non-IID(边缘非独立同分布)表示尽可能地为边缘聚合器关联有相同类别训练数据的计算节点，使得边缘聚合器的数据分布为高度非独立同分布，Edge-Random(边缘随机分布)表示随意关联计算节点到边缘聚合器，这样虽然会使得边缘聚合器的数据分布为非独立同分布，但是相比于Edge-Non-IID，边缘聚合器的数据分布更接近均匀分布。从图3可以看到，当边缘聚合器的数据分布越接近均匀分布时，达到目标模型精度需要的云聚合轮次数越少。用相对熵来量化边缘聚合器数据分布的IID程度，基于此，子问题2可定义为平均相对熵最小化问题，目的是最小化边缘聚合器的平均相对熵。通过合理地权衡两个子问题，SHARE将原始的通信开销最小化问题转化为了有数据分布意识的通信开销最小化问题(DD-CCM)。最终，SHARE设计了两个轻量级的算法来解决NP难的DD-CCM问题。下面进一步说明SHARE问题转化和算法两部分的优化方案，以求解通信开销最小化问题，获得最优的计算节点和边缘聚合器的关联组合，以及最佳边缘聚合器集合。

(1)问题转化：

子问题1可定义为：在每一轮次的云聚合中，通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本，即

如果用P_n＝P(D_n)表示计算节点n的数据分布，D_n为节点n的训练数据集，P_e＝P

表示边缘聚合器e的数据分布，

为与边缘聚合器e关联的计算节点集合，则子问题2可定义为：通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵，即

其中ε为选出的边缘聚合器集合，即满足

P_u表示均匀分布，D_KL(P_e||P_u)表示P_e与P_u之间的相对熵。

值得注意的是，子问题1和子问题2是两个相互竞争的目标，在大多数情况下决策X和Y无法同时取得子问题1和子问题2的最优解。因此，应该做出以下权衡：是根据计算节点与边缘聚合器之间的通信开销关联节点还是根据边缘聚合器的数据分布关联节点？为此，SHARE借助参数γ调整通信开销与数据分布相对熵之间的权重，然后，原始的通信开销最小化问题则可以转化为以下DD-CCM问题：

解决上述DD-CCM问题是一项艰巨的挑战，主要因为以下几点原因。首先，必须确定应该选择多少个边缘聚合器以及选取哪些节点作为边缘聚合器。一方面，如果选择更多数量的边缘聚合器，虽然可以降低分布式计算节点与边缘聚合器之间的通信成本，但是会加剧边缘聚合器与云聚合器之间的通信成本；另一方面，边缘聚合器应该更靠近分布式计算节点以降低节点与边缘聚合器之间的通信成本，但是也应该更靠近云聚合器以降低边缘聚合器与云聚合器之间的通信成本，这在一定程度上是相互矛盾的。其次，如何将计算节点关联到边缘聚合器也是重要却充满挑战的。为了提高通信效率，可以将计算节点关联到离它最近的边缘服务器以减少每轮的通信开销，但是为了提高学习性能，又必须考虑边缘聚合器的数据分布，两者有时候是不可兼得的。其实，即使不考虑边缘聚合器的数据分布，上述DD-CCM问题仍然是NP难的，可以从经典的NP难的基础设施选址问题多项式规约得到。

(2)算法：

为了解决NP难的DD-CCM问题，本发明实施例设计了两个轻量级的算法对边缘聚合器的选择和计算节点的关联进行了对应的优化。具体而言，首先提出了一个基于贪心的节点关联算法GoA，来解决当边缘聚合器集合固定时，如何将计算节点关联到边缘聚合器。然后，基于GoA，利用本地搜索算法去优化边缘聚合器的选择。

i.分布式节点关联：如上所述，给定边缘聚合器集合ε，需要确定分布式计算节点应与哪个边缘聚合器相关联，问题可公式化表示为：

为了解决上述节点关联问题，GoA算法会贪心地将计算节点与边缘服务器关联，以最小化目标函数(13)的值。具体而言，算法会遍历所有待关联的计算节点和尚未达到关联上限的边缘聚合器，然后计算

的值，ΔJ_ne的第一项代表计算节点n与边缘聚合器e之间的通信开销，第二项表示将节点n关联到边缘聚合器e后平均相对熵减少量，其中Δd＝D_KL(P_e+P_n||P_u)―D_KL(P_e||P_u)。基于计算得到的ΔJ_ne值，算法会找到使得ΔJ_ne的值最小的计算节点n和边缘聚合器e的组合，然后将它们关联。算法会重复执行上述过程直到所有的计算节点都被关联。

ii.边缘聚合器选择：边缘聚合器选择问题是为了找到最佳边缘聚合器集合，但是边缘聚合器选择问题是一个复杂的组合问题，不难证明共有

种可能的组合。为了在有限的时间内找到问题的解，本发明采用一个本地搜索算法以优化边缘聚合器的选择策略。

首先，定义

为给定边缘聚合器集合

时目标函数(13)的最优值，并且，如果

不满足(14)-(17)的约束，则规定

定义：

为给定边缘聚合器集合

时目标函数(12)的最优值。算法从一个随机选择的初始可行解

开始，重复执行以下三种操作不断改进系统的通信开销，直到没有一种操作可降低总的通信开销为止。

open(e)操作：随机选择一个不在当前解

中的候选边缘聚合器e，然后执行GoA算法计算

的值，如果存在某个候选边缘聚合器e可以使得

便将e加入到当前解集合

close(e)操作：随机选择一个当前解

中的边缘聚合器e，然后执行GoA算法计算J

的值，如果存在某个边缘聚合器e可以使得

便将e从当前解集合

中移除。

swap(e)操作：随机选择一个不在当前解

中的候选边缘聚合器e，以及在当前解

中的边缘聚合器e′，然后执行GoA算法计算

的值，如果存在一个e和e′对可以使得

便将e加入到当前解集合

然后将e′从当前解集合

中移除。

最终，获得最优的计算节点和边缘聚合器的关联组合，以及最佳边缘聚合器集合。

以下通过仿真实验对本发明进行验证：

使用真实的学习任务和网络拓扑搭建了一个分层联邦学习模拟系统来对本发明的技术方案进行论证。具体而言，应用广泛的MNIST和CIFAR-10数据集分别用于训练LeNet-5模型和ResNet-18模型，数据集被平均分配到分布式计算节点，每个分布式计算节点只拥有一类或者三类标签的数据。网络拓扑则是来自Internet Topology Zoo的三个具有不同地理位置的网络拓扑，分别是GEANT、UUNET和TINET。三个网络拓扑都包含分布式计算节点的经纬度信息，因此可以计算得到节点之间的距离。并且，在每个网络拓扑中都额外加入了一个节点作为云聚合器，位置固定在美国西雅图。节点传输模型更新的通信开销通常与传输距离和模型更新的数据包大小直接相关，因此，定义c_ne＝0.002·d_ne·S_m，c_ec＝0.02·d_ec·S_m，其中d_ne和d_ec分别代表计算节点n到边缘聚合器e的距离和边缘聚合器e到云聚合器的距离，S_m为模型更新的大小。

图4为本发明设计的优化框架SHARE与其他优化方法在学习精度和通信开销两方面的对比。本实验是在TINET网络拓扑下训练LeNet-5模型(图4(a)为学习精度，图4(b)为通信开销)和ResNet-18模型(图4(c)为学习精度，图4(d)为通信开销)的结果，其中，κ_e和κ_c分别设置为5和40。从两个学习任务中，可以观察到类似的结果：首先，不管是学习精度还是收敛速度，SHARE都与DG(只考虑数据分布而不考虑通信开销，利用贪心算法使得边缘聚合器的平均相对熵最小)方法相当，并且两种方法的性能都远优于CC(不考虑数据分布，利用CPLEX优化器最小化每轮的通信开销)方法。其次，DG方法的通信开销相比于SHARE和CC方法都很可观，而SHARE相比于CC方法仅仅提高了很少的通信开销。例如，在LeNet-5模型的训练中，经过10轮次的云聚合后，SHARE和DG方法都可以达到80％的模型精度，但是CC方法的模型精度却仅能达到60％。但是，10轮次的云聚合在DG方法中需要2.8×10⁶的通信开销，在SHARE和CC方法中仅需要0.25×10⁶和0.15×10⁶的通信开销。这意味着SHARE可以以非常低的通信成本显著提高学习性能，从而在学习性能和通信成本之间达到良好的平衡。

图5是在不同的κ_e和κ_c取值下，本发明设计的优化框架SHARE与其他优化方法的性能对比。本实验是在GEANT网络拓扑下训练LeNet-5模型，首先固定κ_e为5，将κ_c从10(图5(a))变为40(图5(b))，60(图5(c))，然后固定κ_c为60，将κ_e从5变为10(图5(d))，20(图5(e))。从图5中可以得到三个结论：首先，本发明设计的方法在所有的情况下都优于其他两种方法。例如，当κ_e为5，κ_c为60时，SHARE消耗3×10⁵的通信开销可达到93.18％的模型精度，但CC方法和DG方法仅能达到83.08％和83.88％的模型精度。另外，其他两种方法达到80％的模型精度需要2.4×10⁵的通信开销，但是SHARE达到同样的模型精度仅仅需要0.85×10⁵的通信开销，相比之下SHARE减少了64.6％的通信开销。其次，可以看到，当降低云聚合的频率时(即增加κ_c)，SHARE与其他两种方法的性能差距变得十分明显。这是因为SHARE已经在边缘平衡了数据分布，从而不需要依赖频繁的云聚合来保证学习性能。第三，如果能找到最优的边缘聚合频率，那么SHARE的性能可以进一步增强。例如，如果固定κ_c为60，当把边缘聚合频率从5降低到10时，学习模型可以以更少的通信成本收敛，但是继续降低聚合频率到20时，模型的收敛性和准确性都会下降。但是总而言之，不论参数如何设置，SHARE的性能都相对稳定，并且远优于其他两种优化方法。

图6表示的是γ的取值对每轮次的通信开销、边缘聚合器的平均相对熵和模型学习精度的影响。本实验是在GEANT网络拓扑下训练LeNet-5模型，其中，κ_e和κ_c分别设置为5和40。从图6(a)中可以看到，当增大γ值时，因为系统变得更加关注数据的分布，所以平均相对熵会减小，每轮的通信开销会增大。与此同时，模型的收敛精度会提高，因为边缘聚合器的数据分布可直接影响到模型学习性能。图6(b)表示模型学习精度达到90％需要的通信开销，可以看到，当γ值很小时，由于没有考虑数据分布的影响，通信开销会很大。另外，当参数大于某个阈值时(例如10,000)，数据分布的潜力便可以充分发挥出来，但是由于未适当优化每轮的通信开销，所需的通信开销会稍微有所增加。

图7表示的是在不同的网络拓扑下，本发明设计的优化框架SHARE与其他优化方法的性能对比。本实验是在UUNET(图7(a))和TINET(图7(b))两种网络拓扑下训练LeNet-5模型，其中，κ_e和κ_c分别设置为5和40。可以看到，在两种网络拓扑中，本发明设计的优化框架SHARE都远优于其他两种优化方法。例如，在UUNET网络拓扑中，训练LeNet-5模型达到80％的精度在CC和DG方法中分别需要2.4×10⁵和2×10⁵的通信开销，但是SHARE仅仅需要0.9×10⁵的通信开销，相比两种方法分别提高了62.5％和55％的通信效率。另外，在TINET网络拓扑中，达到80％的模型精度，SHARE相比于CC方法可节省60％的通信开销，与DG方法相比，SHARE则会有更显著的通信效率上的提高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。