CN112070240B - 一种高效通信的分层联邦学习框架及其优化方法和系统 - Google Patents

一种高效通信的分层联邦学习框架及其优化方法和系统 Download PDF

Info

Publication number
CN112070240B
CN112070240B CN202010929585.0A CN202010929585A CN112070240B CN 112070240 B CN112070240 B CN 112070240B CN 202010929585 A CN202010929585 A CN 202010929585A CN 112070240 B CN112070240 B CN 112070240B
Authority
CN
China
Prior art keywords
edge
aggregator
cloud
model
aggregators
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010929585.0A
Other languages
English (en)
Other versions
CN112070240A (zh
Inventor
张尧学
邓永恒
吕丰
任炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Central South University
Original Assignee
Tsinghua University
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Central South University filed Critical Tsinghua University
Priority to CN202010929585.0A priority Critical patent/CN112070240B/zh
Publication of CN112070240A publication Critical patent/CN112070240A/zh
Application granted granted Critical
Publication of CN112070240B publication Critical patent/CN112070240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种高效通信的分层联邦学习框架及其优化方法和系统,该框架包括:一个云聚合器、多个边缘聚合器和多个分布式计算节点;在每轮云聚合迭代中,边缘聚合器首先从云聚合器下载全局学习模型,每个分布式计算节点从其关联的边缘聚合器下载全局学习模型,训练模型更新上传到关联的边缘聚合器;边缘聚合器聚合接收模型更新并聚合发送回关联的计算节点,经过多次边缘聚合迭代后,将边缘模型更新上传到云聚合器;云聚合器将多个边缘模型聚合后得到全局模型更新发送回所有的边缘聚合器;重复边缘聚合以及云聚合迭代,直至全局模型达到目标精度。该优化方法采用通信开销最小化作为优化目标。本发明提高学习性能的同时,可降低系统的通信开销。

Description

一种高效通信的分层联邦学习框架及其优化方法和系统
技术领域
本发明涉及大规模分布式边缘智能框架的性能优化技术,尤其涉及一种高效通信的分层联邦学习框架及其优化方法和系统。
背景技术
随着移动设备的普及率越来越高,网络边缘产生的数据日益增多。这些数据通常通过网络传输到云端集中存储,借助机器学习算法,可以有效地提取出数据的特征,为智能服务的发展奠定了基础。但是,移动设备产生的数据大多是隐私数据,在网络传输过程中面临隐私泄露的风险。为了保护数据隐私,联邦学习一改传统的集中式学习模式,提出每个分布式计算节点利用本地数据协作学习全局模型的新方法。这样,数据不必离开设备,只有计算节点学习到的模型更新被传输到云端聚合,然后更新云上的全局模型并将其发送回计算节点以进行下一轮的学习。所以,联邦学习可以在保护数据隐私的同时,不断地提高全局模型的质量。
在联邦学习中,高效的通信对学习效率至关重要。因为需要足够多轮次的云端模型聚合才能使模型达到令人满意的精度。尤其是当分布式计算节点的数据为非独立同分布时,需要的聚合次数会更多。并且,通过实验发现,频繁的模型更新对于优化全局模型很重要。但矛盾的是,分布式的计算节点通常受限于通信、带宽等资源,这使得它们难以与云端进行频繁的通信。另外,随着学习模型的结构变得越来越复杂(例如深度神经网络),模型更新的数据量显著增长,这更加剧了联邦学习的通信开销。
目前已经有一些关于提高联邦学习通信效率的研究。例如,Alistarh等人提出模型更新压缩方案以减少每轮的通信开销,但代价是模型精度和收敛速度等学习性能的降低。还有一些研究试图减少模型达到目标精度所需要的总聚合次数或者模型更新数量。例如,Wang等人提出了一种动态识别不重要的模型更新的方案,以此减少模型更新的数量,提高通信效率;Ji等人提出可以动态调整参与节点的数量并且摒弃掉不重要的模型更新。但是,为了保证学习性能,现有的研究对通信开销的改善仍然有限。并且他们在模型更新的选择和排除方面可能会出现偏差,导致学习性能的下降。
为了向用户提供更好的基于机器学习模型的智能服务,模型需要更好的学习性能。但是,达到令人满意的学习性能需要足够多轮次的网络通信和模型聚合,这给计算节点和网络都带来了沉重的负担。与现有的工作不同,本发明探索了一种完全不同的降低通信开销的方式,即将通信成本很高的模型聚合过程从云端迁移到边缘进行。节点、边缘与云端构成了一个分层联邦学习框架,在此框架下研究了如何进一步降低通信开销。
尽管在少数现有工作中提及了分层联邦学习框架的概念,例如,Liu等人为分层联邦学习框架设计了协同训练算法HierFAVG;Luo等人基于一个资源调度模型试图降低分层联邦学习框架的计算和通信成本。但是,在现有的工作中,分层联邦学习框架的潜力尚没有被充分挖掘,并且本发明考虑的通信开销最小化的问题也鲜少被提及。
发明内容
本发明提供了一种高效通信的分层联邦学习框架及其优化方法和系统,用以解决现有技术中为了保证学习性能,对通信开销的改善有限以及学习性能的下降的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种高效通信的分层联邦学习框架,包括:一个云聚合器、多个边缘聚合器和多个分布式计算节点;每个云聚合器与多个边缘聚合器关联,每个边缘聚合器与两个以上的分布式计算节点关联;
在每轮云聚合迭代中,边缘聚合器首先从云聚合器下载全局学习模型,每个分布式计算节点从其关联的边缘聚合器下载全局学习模型,用本地数据训练模型,再将模型更新上传到关联的边缘聚合器;边缘聚合器聚合接收到的来自相关联的两个以上的分布式计算节点的模型更新并聚合,将聚合后的模型发送回关联的计算节点,以进行下一轮次的边缘聚合迭代;
每个边缘聚合器经过多次边缘聚合迭代后,将边缘模型更新上传到云聚合器;云聚合器将来自多个边缘聚合器的多个边缘模型聚合后得到全局模型,并将全局模型更新发送回所有的边缘聚合器,以进行下一轮次的云聚合迭代;
重复边缘聚合以及云聚合迭代,直至全局模型达到目标精度。
优选地,边缘聚合器从候选边缘聚合器中选取,候选边缘聚合器从多个分布式计算节点中选取。
本发明还提供一种根据上述的高效通信的分层联邦学习框架的优化方法,包括以下步骤:
将计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小作为分层联邦学习框架的优化目标;定义为通信开销最小化问题;
将通信开销最小化问题转化为两个子问题:在每一轮次的云聚合中,通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本;以及通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵;
并通过参数γ调整总通信成本与平均相对熵之间的权重;
求解通信开销最小化问题,获得最优的计算节点和边缘聚合器的关联组合,以及最佳边缘聚合器集合。
优选地,通信开销最小化问题的目标函数如下:
Figure BDA0002669733890000031
上述的目标函数满足以下约束:
Figure BDA0002669733890000032
Figure BDA0002669733890000033
Figure BDA0002669733890000034
Figure BDA0002669733890000035
Figure BDA0002669733890000036
Figure BDA0002669733890000037
其中,
Figure BDA0002669733890000038
是分布式计算节点的数量,二进制变量xe∈{0,1}用来标志候选边缘节点e∈
Figure BDA0002669733890000039
是否被选作边缘聚合器,等于1表示e被选作边缘聚合器,否则为0;二进制变量yne∈{0,1}用来标志分布式计算节点
Figure BDA00026697338900000310
是否被关联到边缘聚合器e,关联为1,否则为0;
Figure BDA00026697338900000311
(X,Y)为通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本;Jd(X,Y)为通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵;
约束(4)要求不能选择候选边缘聚合器以外的节点作为边缘聚合器;
约束(5)要求每个分布式计算节点必须与一个且仅能与一个边缘聚合器关联;
约束(6)要求每个分布式计算节点只能与已被选为边缘聚合器的候选节点相关联;
约束(7)限制每个边缘聚合器e最多能与Be个计算节点相关联。
优选地,在每一轮次的云聚合中,通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本,目标函数如下:
Figure BDA00026697338900000312
其中,κc为边缘聚合的次数,cne为节点n将模型更新上传到它关联的边缘聚合器e的通信开销;cec为边缘聚合器e将边缘模型更新上传到云聚合器的通信开销。
优选地,通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵,目标函数如下:
Figure BDA00026697338900000313
s.t.constraints:(4),(5),(6),(7),(8),(9),
其中,ε为选出的边缘聚合器集合,即满足
Figure BDA0002669733890000041
Pu表示均匀分布,DKL(Pe||Pu)表示Pe与Pu之间的相对熵;Pn=P(Dn)表示分布式计算节点n的数据分布,Dn为节点n的训练数据集,
Figure BDA0002669733890000042
表示边缘聚合器e的数据分布,
Figure BDA0002669733890000043
为与边缘聚合器e关联的计算节点集合。
优选地,获得最优的计算节点和边缘聚合器的关联组合,转化为以下目标函数:
Figure BDA0002669733890000044
上述的目标函数满足以下约束:
Figure BDA0002669733890000045
Figure BDA0002669733890000046
Figure BDA0002669733890000047
Figure BDA0002669733890000048
并按照以下步骤求解上述目标函数:
遍历所有待关联的分布式计算节点和尚未达到关联上限的边缘聚合器,计算
Figure BDA0002669733890000049
Figure BDA00026697338900000410
的值,ΔJne的第一项κccne代表计算节点n与边缘聚合器e之间的通信开销,第二项
Figure BDA00026697338900000411
Δd表示将节点n关联到边缘聚合器e后平均相对熵减少量,其中Δd=DKL(Pe+Pn||Pu)―DKL(Pe||Pu);
基于计算得到的ΔJne值,找到使得ΔJne的值最小的分布式计算节点n和边缘聚合器e的组合,然后将它们关联;
重复执行上述过程直到所有的计算节点都被关联。
优选地,获得最佳边缘聚合器集合,包括以下步骤:
定义
Figure BDA00026697338900000413
为给定边缘聚合器集合
Figure BDA00026697338900000414
时目标函数(13)的最优值,并且,如果
Figure BDA00026697338900000419
不满足式(14)-(17)的约束,则规定
Figure BDA00026697338900000415
定义:
Figure BDA00026697338900000412
为给定边缘聚合器集合
Figure BDA00026697338900000416
时目标函数式(12)的最优值;
随机选择一个不在当前解
Figure BDA00026697338900000417
中的候选边缘聚合器e,计算
Figure BDA00026697338900000418
的值,如果存在某个候选边缘聚合器e可以使得
Figure BDA0002669733890000051
便将e加入到当前解集合
Figure BDA0002669733890000052
随机选择一个当前解
Figure BDA0002669733890000056
中的边缘聚合器e,计算
Figure BDA0002669733890000053
的值,如果存在某个边缘聚合器e可以使得
Figure BDA0002669733890000055
便将e从当前解集合
Figure BDA0002669733890000054
中移除;
随机选择一个不在当前解
Figure BDA0002669733890000057
中的候选边缘聚合器e,以及在当前解
Figure BDA00026697338900000512
中的边缘聚合器e′,计算
Figure BDA0002669733890000058
的值,如果存在一个e和e′对可以使得
Figure BDA00026697338900000511
便将e加入到当前解集合
Figure BDA0002669733890000059
然后将e′从当前解集合
Figure BDA00026697338900000510
中移除。
本发明还公开一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
本发明具有以下有益效果:
1、本发明的高效通信的分层联邦学习框架,能够完成大规模广范围内的分布式移动边缘节点的协同机器学习模型训练。通过选择一部分节点作为边缘聚合器,频繁的模型聚合便可以以很低的通信开销在边缘实现。不仅可以显著减少分布式联邦学习系统的通信开销,还可以提高模型的精度,以更少的成本为用户提供更好的基于机器学习模型的智能服务。
2、本发明高效通信的分层联邦学习框架的优化方法和系统,在边缘聚合器选择和关联计算节点时综合考虑通信开销和数据分布,尽量将节点关联到距离较近的节点,同时也尽量使得边缘聚合器的数据分布接近均匀分布。不仅可以减少每轮通信的开销,并且可以显著减少达到目标模型精度需要的迭代轮次,在减少分布式联邦学习系统总的通信开销的同时,提高目标模型的精度。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的高效通信的分层联邦学习框架的结构示意图;
图2是本发明优选实施例的高效通信的分层联邦学习框架的优化方法的流程示意图;
图3是本发明优选实施例的不同的边缘数据分布下得到的模型精度的示意图;
图4是本发明优选实施例的优化的分层联邦学习框架的学习精度和通信开销的性能的示意图;
图5是本发明优选实施例的优化的分层联邦学习框架在不同的参数设置下学习精度和通信开销的性能的示意图;
图6是本发明优选实施例的优化的分层联邦学习框架在不同的权衡系数设置下学习精度和通信开销的性能的示意图;
图7是本发明优选实施例的优化的分层联邦学习框架在不同的网络拓扑下学习精度和通信开销的性能的示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参见图1,本发明的高效通信的分层联邦学习框架,包括:一个云聚合器、多个边缘聚合器和N个分布式计算节点(用
Figure BDA0002669733890000061
表示);每个云聚合器与多个边缘聚合器关联,每个边缘聚合器与两个以上的分布式计算节点关联。实施时,由于分布式计算节点的本地存储数据通常是位置和设备相关的,假设分布式计算节点的训练数据是非独立同分布的(与实际系统相符)。在
Figure BDA0002669733890000062
中,有一部分节点可被选作边缘聚合器,称他们为候选边缘聚合器,用集合
Figure BDA0002669733890000063
表示。即边缘聚合器从候选边缘聚合器中选取,候选边缘聚合器从多个分布式计算节点中选取。
在每轮云聚合迭代中,边缘聚合器首先从云聚合器下载全局学习模型,每个分布式计算节点从其关联的边缘聚合器下载全局学习模型,用本地数据训练模型,每个计算节点在经过κe次本地训练迭代后,再将模型更新上传到关联的边缘聚合器;边缘聚合器聚合接收到的来自相关联的两个以上的分布式计算节点的模型更新并聚合,将聚合后的模型发送回关联的计算节点,以进行下一轮次的边缘聚合迭代;
每个边缘聚合器经过κc次边缘聚合迭代后,将边缘模型更新上传到云聚合器;云聚合器将来自多个边缘聚合器的多个边缘模型聚合后得到全局模型,并将全局模型更新发送回所有的边缘聚合器,以进行下一轮次的云聚合迭代;
重复边缘聚合以及云聚合迭代,直至全局模型达到目标精度。
基于上述的高效通信的分层联邦学习框架,本发明还提供一种根据上述的高效通信的分层联邦学习框架的优化方法,在分层联邦学习框架中,定义通信开销最小化问题如下:给定一组移动计算节点
Figure BDA0002669733890000064
和候选边缘聚合器
Figure BDA0002669733890000065
如何确定一组边缘聚合器集合以及它们关联的移动计算节点,使得计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小。即将计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小作为分层联邦学习框架的优化目标;定义为通信开销最小化问题:
定义xe∈{0,1}是一个二进制变量,用来标志候选边缘节点
Figure BDA0002669733890000071
是否被选作边缘聚合器,等于1意味着e被选作边缘聚合器,否则设置为0.二进制变量yne∈{0,1}用来标志计算节点
Figure BDA0002669733890000072
是否被关联到边缘聚合器e,关联设置为1,否则设置为0.定义cne为节点n将模型更新上传到它关联的边缘聚合器e的通信开销,κ为达到目标精度的云聚合总数。则移动计算节点与边缘聚合器之间的总通信成本可表示为:
Figure BDA0002669733890000073
其中,
Figure BDA0002669733890000074
是计算节点与边缘聚合器之间的关联结果。类似地,定义cec为边缘聚合器e将边缘模型更新上传到云聚合器的通信开销,则边缘聚合器与云聚合器之间的总通信开销可表示为:
Figure BDA0002669733890000075
其中,
Figure BDA0002669733890000076
为边缘聚合器的挑选结果。那么,通信开销最小化问题则可以公式化表示为:
Figure BDA0002669733890000077
Figure BDA0002669733890000078
Figure BDA0002669733890000079
Figure BDA00026697338900000710
Figure BDA00026697338900000711
Figure BDA00026697338900000712
Figure BDA00026697338900000713
其中,约束(4)意味着不能选择候选边缘聚合器以外的节点作为边缘聚合器,约束(5)意味着每个节点必须与一个且仅能与一个边缘聚合器关联,约束(6)要求每个节点只能与已被选为边缘聚合器的候选节点相关联。考虑到边缘设备的通信资源通常有限,因此在(7)中限制了每个边缘聚合器e最多能与Be个计算节点相关联。
上述通信开销最小化问题很难求得最优解,因为一方面要决定X和Y的值以最小化每轮云聚合的通信开销,另一方面要尽可能地减少需要的云聚合轮次数κ。但是κ往往是无法预知的,并且,X和Y的决策无形中会影响κ的取值,这使得问题变得更加复杂。为了有效地解决通信开销最小化问题,本发明实施例提出了一套优化框架SHARE。图2表示的是本实施例的SHARE的流程,其中包括问题转化和算法设计两部分。在问题转化部分,可以从两个方向优化系统的通信开销,即最小化每轮次云聚合的通信开销和减少需要的云聚合次数。所以SHARE首先沿着这两个方向把问题转化为了两个子问题,即本实施例进一步将通信开销最小化问题转化为两个子问题:子问题1是每轮次通信开销最小化问题,目的是最小化每轮次云聚合的通信开销。子问题2则是为了减少需要的云聚合的总轮次数κ。
通过实验表明,通过合理地关联计算节点到边缘聚合器,使得边缘聚合器的数据分布接近均匀分布,可以显著减少达到目标模型精度需要的云聚合轮次数。实验结果如图3所示,图3(a)是边缘聚合为LeNet-5方式的达到目标模型精度需要的云聚合轮次数;图3(b)是边缘聚合为ResNet-18方式的达到目标模型精度需要的云聚合轮次数。Edge-IID(边缘独立同分布)表示关联计算节点到边缘聚合器使得边缘聚合器的数据分布为独立同分布,Edge-Non-IID(边缘非独立同分布)表示尽可能地为边缘聚合器关联有相同类别训练数据的计算节点,使得边缘聚合器的数据分布为高度非独立同分布,Edge-Random(边缘随机分布)表示随意关联计算节点到边缘聚合器,这样虽然会使得边缘聚合器的数据分布为非独立同分布,但是相比于Edge-Non-IID,边缘聚合器的数据分布更接近均匀分布。从图3可以看到,当边缘聚合器的数据分布越接近均匀分布时,达到目标模型精度需要的云聚合轮次数越少。用相对熵来量化边缘聚合器数据分布的IID程度,基于此,子问题2可定义为平均相对熵最小化问题,目的是最小化边缘聚合器的平均相对熵。通过合理地权衡两个子问题,SHARE将原始的通信开销最小化问题转化为了有数据分布意识的通信开销最小化问题(DD-CCM)。最终,SHARE设计了两个轻量级的算法来解决NP难的DD-CCM问题。下面进一步说明SHARE问题转化和算法两部分的优化方案,以求解通信开销最小化问题,获得最优的计算节点和边缘聚合器的关联组合,以及最佳边缘聚合器集合。
(1)问题转化:
子问题1可定义为:在每一轮次的云聚合中,通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本,即
Figure BDA0002669733890000081
如果用Pn=P(Dn)表示计算节点n的数据分布,Dn为节点n的训练数据集,Pe=P
Figure BDA0002669733890000091
表示边缘聚合器e的数据分布,
Figure BDA0002669733890000092
为与边缘聚合器e关联的计算节点集合,则子问题2可定义为:通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵,即
Figure BDA0002669733890000093
其中ε为选出的边缘聚合器集合,即满足
Figure BDA0002669733890000094
Pu表示均匀分布,DKL(Pe||Pu)表示Pe与Pu之间的相对熵。
值得注意的是,子问题1和子问题2是两个相互竞争的目标,在大多数情况下决策X和Y无法同时取得子问题1和子问题2的最优解。因此,应该做出以下权衡:是根据计算节点与边缘聚合器之间的通信开销关联节点还是根据边缘聚合器的数据分布关联节点?为此,SHARE借助参数γ调整通信开销与数据分布相对熵之间的权重,然后,原始的通信开销最小化问题则可以转化为以下DD-CCM问题:
Figure BDA0002669733890000095
解决上述DD-CCM问题是一项艰巨的挑战,主要因为以下几点原因。首先,必须确定应该选择多少个边缘聚合器以及选取哪些节点作为边缘聚合器。一方面,如果选择更多数量的边缘聚合器,虽然可以降低分布式计算节点与边缘聚合器之间的通信成本,但是会加剧边缘聚合器与云聚合器之间的通信成本;另一方面,边缘聚合器应该更靠近分布式计算节点以降低节点与边缘聚合器之间的通信成本,但是也应该更靠近云聚合器以降低边缘聚合器与云聚合器之间的通信成本,这在一定程度上是相互矛盾的。其次,如何将计算节点关联到边缘聚合器也是重要却充满挑战的。为了提高通信效率,可以将计算节点关联到离它最近的边缘服务器以减少每轮的通信开销,但是为了提高学习性能,又必须考虑边缘聚合器的数据分布,两者有时候是不可兼得的。其实,即使不考虑边缘聚合器的数据分布,上述DD-CCM问题仍然是NP难的,可以从经典的NP难的基础设施选址问题多项式规约得到。
(2)算法:
为了解决NP难的DD-CCM问题,本发明实施例设计了两个轻量级的算法对边缘聚合器的选择和计算节点的关联进行了对应的优化。具体而言,首先提出了一个基于贪心的节点关联算法GoA,来解决当边缘聚合器集合固定时,如何将计算节点关联到边缘聚合器。然后,基于GoA,利用本地搜索算法去优化边缘聚合器的选择。
i.分布式节点关联:如上所述,给定边缘聚合器集合ε,需要确定分布式计算节点应与哪个边缘聚合器相关联,问题可公式化表示为:
Figure BDA0002669733890000101
Figure BDA0002669733890000102
Figure BDA0002669733890000103
Figure BDA0002669733890000104
Figure BDA0002669733890000105
为了解决上述节点关联问题,GoA算法会贪心地将计算节点与边缘服务器关联,以最小化目标函数(13)的值。具体而言,算法会遍历所有待关联的计算节点和尚未达到关联上限的边缘聚合器,然后计算
Figure BDA0002669733890000106
的值,ΔJne的第一项代表计算节点n与边缘聚合器e之间的通信开销,第二项表示将节点n关联到边缘聚合器e后平均相对熵减少量,其中Δd=DKL(Pe+Pn||Pu)―DKL(Pe||Pu)。基于计算得到的ΔJne值,算法会找到使得ΔJne的值最小的计算节点n和边缘聚合器e的组合,然后将它们关联。算法会重复执行上述过程直到所有的计算节点都被关联。
ii.边缘聚合器选择:边缘聚合器选择问题是为了找到最佳边缘聚合器集合,但是边缘聚合器选择问题是一个复杂的组合问题,不难证明共有
Figure BDA0002669733890000107
种可能的组合。为了在有限的时间内找到问题的解,本发明采用一个本地搜索算法以优化边缘聚合器的选择策略。
首先,定义
Figure BDA0002669733890000108
为给定边缘聚合器集合
Figure BDA0002669733890000109
时目标函数(13)的最优值,并且,如果
Figure BDA00026697338900001014
不满足(14)-(17)的约束,则规定
Figure BDA00026697338900001010
定义:
Figure BDA00026697338900001011
为给定边缘聚合器集合
Figure BDA00026697338900001012
时目标函数(12)的最优值。算法从一个随机选择的初始可行解
Figure BDA00026697338900001013
开始,重复执行以下三种操作不断改进系统的通信开销,直到没有一种操作可降低总的通信开销为止。
open(e)操作:随机选择一个不在当前解
Figure BDA0002669733890000111
中的候选边缘聚合器e,然后执行GoA算法计算
Figure BDA0002669733890000112
的值,如果存在某个候选边缘聚合器e可以使得
Figure BDA0002669733890000115
便将e加入到当前解集合
Figure BDA0002669733890000113
close(e)操作:随机选择一个当前解
Figure BDA0002669733890000114
中的边缘聚合器e,然后执行GoA算法计算J
Figure BDA00026697338900001114
的值,如果存在某个边缘聚合器e可以使得
Figure BDA0002669733890000116
便将e从当前解集合
Figure BDA00026697338900001115
中移除。
swap(e)操作:随机选择一个不在当前解
Figure BDA0002669733890000117
中的候选边缘聚合器e,以及在当前解
Figure BDA0002669733890000118
中的边缘聚合器e′,然后执行GoA算法计算
Figure BDA0002669733890000119
的值,如果存在一个e和e′对可以使得
Figure BDA00026697338900001113
Figure BDA00026697338900001112
便将e加入到当前解集合
Figure BDA00026697338900001110
然后将e′从当前解集合
Figure BDA00026697338900001111
中移除。
最终,获得最优的计算节点和边缘聚合器的关联组合,以及最佳边缘聚合器集合。
本发明还公开一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
以下通过仿真实验对本发明进行验证:
使用真实的学习任务和网络拓扑搭建了一个分层联邦学习模拟系统来对本发明的技术方案进行论证。具体而言,应用广泛的MNIST和CIFAR-10数据集分别用于训练LeNet-5模型和ResNet-18模型,数据集被平均分配到分布式计算节点,每个分布式计算节点只拥有一类或者三类标签的数据。网络拓扑则是来自Internet Topology Zoo的三个具有不同地理位置的网络拓扑,分别是GEANT、UUNET和TINET。三个网络拓扑都包含分布式计算节点的经纬度信息,因此可以计算得到节点之间的距离。并且,在每个网络拓扑中都额外加入了一个节点作为云聚合器,位置固定在美国西雅图。节点传输模型更新的通信开销通常与传输距离和模型更新的数据包大小直接相关,因此,定义cne=0.002·dne·Sm,cec=0.02·dec·Sm,其中dne和dec分别代表计算节点n到边缘聚合器e的距离和边缘聚合器e到云聚合器的距离,Sm为模型更新的大小。
图4为本发明设计的优化框架SHARE与其他优化方法在学习精度和通信开销两方面的对比。本实验是在TINET网络拓扑下训练LeNet-5模型(图4(a)为学习精度,图4(b)为通信开销)和ResNet-18模型(图4(c)为学习精度,图4(d)为通信开销)的结果,其中,κe和κc分别设置为5和40。从两个学习任务中,可以观察到类似的结果:首先,不管是学习精度还是收敛速度,SHARE都与DG(只考虑数据分布而不考虑通信开销,利用贪心算法使得边缘聚合器的平均相对熵最小)方法相当,并且两种方法的性能都远优于CC(不考虑数据分布,利用CPLEX优化器最小化每轮的通信开销)方法。其次,DG方法的通信开销相比于SHARE和CC方法都很可观,而SHARE相比于CC方法仅仅提高了很少的通信开销。例如,在LeNet-5模型的训练中,经过10轮次的云聚合后,SHARE和DG方法都可以达到80%的模型精度,但是CC方法的模型精度却仅能达到60%。但是,10轮次的云聚合在DG方法中需要2.8×106的通信开销,在SHARE和CC方法中仅需要0.25×106和0.15×106的通信开销。这意味着SHARE可以以非常低的通信成本显著提高学习性能,从而在学习性能和通信成本之间达到良好的平衡。
图5是在不同的κe和κc取值下,本发明设计的优化框架SHARE与其他优化方法的性能对比。本实验是在GEANT网络拓扑下训练LeNet-5模型,首先固定κe为5,将κc从10(图5(a))变为40(图5(b)),60(图5(c)),然后固定κc为60,将κe从5变为10(图5(d)),20(图5(e))。从图5中可以得到三个结论:首先,本发明设计的方法在所有的情况下都优于其他两种方法。例如,当κe为5,κc为60时,SHARE消耗3×105的通信开销可达到93.18%的模型精度,但CC方法和DG方法仅能达到83.08%和83.88%的模型精度。另外,其他两种方法达到80%的模型精度需要2.4×105的通信开销,但是SHARE达到同样的模型精度仅仅需要0.85×105的通信开销,相比之下SHARE减少了64.6%的通信开销。其次,可以看到,当降低云聚合的频率时(即增加κc),SHARE与其他两种方法的性能差距变得十分明显。这是因为SHARE已经在边缘平衡了数据分布,从而不需要依赖频繁的云聚合来保证学习性能。第三,如果能找到最优的边缘聚合频率,那么SHARE的性能可以进一步增强。例如,如果固定κc为60,当把边缘聚合频率从5降低到10时,学习模型可以以更少的通信成本收敛,但是继续降低聚合频率到20时,模型的收敛性和准确性都会下降。但是总而言之,不论参数如何设置,SHARE的性能都相对稳定,并且远优于其他两种优化方法。
图6表示的是γ的取值对每轮次的通信开销、边缘聚合器的平均相对熵和模型学习精度的影响。本实验是在GEANT网络拓扑下训练LeNet-5模型,其中,κe和κc分别设置为5和40。从图6(a)中可以看到,当增大γ值时,因为系统变得更加关注数据的分布,所以平均相对熵会减小,每轮的通信开销会增大。与此同时,模型的收敛精度会提高,因为边缘聚合器的数据分布可直接影响到模型学习性能。图6(b)表示模型学习精度达到90%需要的通信开销,可以看到,当γ值很小时,由于没有考虑数据分布的影响,通信开销会很大。另外,当参数大于某个阈值时(例如10,000),数据分布的潜力便可以充分发挥出来,但是由于未适当优化每轮的通信开销,所需的通信开销会稍微有所增加。
图7表示的是在不同的网络拓扑下,本发明设计的优化框架SHARE与其他优化方法的性能对比。本实验是在UUNET(图7(a))和TINET(图7(b))两种网络拓扑下训练LeNet-5模型,其中,κe和κc分别设置为5和40。可以看到,在两种网络拓扑中,本发明设计的优化框架SHARE都远优于其他两种优化方法。例如,在UUNET网络拓扑中,训练LeNet-5模型达到80%的精度在CC和DG方法中分别需要2.4×105和2×105的通信开销,但是SHARE仅仅需要0.9×105的通信开销,相比两种方法分别提高了62.5%和55%的通信效率。另外,在TINET网络拓扑中,达到80%的模型精度,SHARE相比于CC方法可节省60%的通信开销,与DG方法相比,SHARE则会有更显著的通信效率上的提高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种高效通信的分层联邦学习框架的优化方法,其特征在于,
所述分层联邦学习框架,包括:一个云聚合器、多个边缘聚合器和多个分布式计算节点;每个云聚合器与多个边缘聚合器关联,每个边缘聚合器与两个以上的分布式计算节点关联;所述边缘聚合器从候选边缘聚合器中选取,所述候选边缘聚合器从多个分布式计算节点中选取;
在每轮云聚合迭代中,边缘聚合器首先从云聚合器下载全局学习模型,每个分布式计算节点从其关联的边缘聚合器下载全局学习模型,用本地数据训练模型,再将模型更新上传到关联的边缘聚合器;边缘聚合器聚合接收到的来自相关联的两个以上的分布式计算节点的模型更新并聚合,将聚合后的模型发送回关联的计算节点,以进行下一轮次的边缘聚合迭代;
每个边缘聚合器经过多次边缘聚合迭代后,将边缘模型更新上传到云聚合器;云聚合器将来自多个边缘聚合器的多个边缘模型聚合后得到全局模型,并将全局模型更新发送回所有的边缘聚合器,以进行下一轮次的云聚合迭代;
重复边缘聚合以及云聚合迭代,直至全局模型达到目标精度;
所述优化方法,包括以下步骤:
将计算节点与边缘聚合器之间以及边缘聚合器与云聚合器之间在整个分布式学习期间的总通信开销最小作为所述分层联邦学习框架的优化目标;定义为通信开销最小化问题;
将所述通信开销最小化问题转化为两个子问题:在每一轮次的云聚合中,通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本;以及通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵;
并通过参数γ调整总通信成本与平均相对熵之间的权重;
求解所述通信开销最小化问题,获得最优的计算节点和边缘聚合器的关联组合,以及最佳边缘聚合器集合。
2.根据权利要求1所述的高效通信的分层联邦学习框架的优化方法,其特征在于,所述通信开销最小化问题的目标函数如下:
minX,YJc(X,Y)+γJd(X,Y), (12)
上述的目标函数满足以下约束:
Figure FDA0003832580580000011
Figure FDA0003832580580000012
Figure FDA0003832580580000013
Figure FDA0003832580580000014
Figure FDA0003832580580000015
Figure FDA0003832580580000021
其中,
Figure FDA0003832580580000022
是分布式计算节点的数量,二进制变量xe∈{0,1}用来标志候选边缘节点
Figure FDA0003832580580000023
是否被选作边缘聚合器,等于1表示e被选作边缘聚合器,否则为0;二进制变量yne∈{0,1}用来标志分布式计算节点
Figure FDA00038325805800000211
是否被关联到边缘聚合器e,关联为1,否则为0;minX,YJc(X,Y)为通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本;Jd(X,Y)为通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵;
约束(4)要求不能选择候选边缘聚合器以外的节点作为边缘聚合器;
约束(5)要求每个分布式计算节点必须与一个且仅能与一个边缘聚合器关联;
约束(6)要求每个分布式计算节点只能与已被选为边缘聚合器的候选节点相关联;
约束(7)限制每个边缘聚合器e最多能与Be个计算节点相关联。
3.根据权利要求2所述的高效通信的分层联邦学习框架的优化方法,其特征在于,在每一轮次的云聚合中,通过决策X和Y来最小化移动计算节点、边缘聚合器和云聚合器之间的总通信成本,目标函数如下:
Figure FDA0003832580580000024
s.t.constraints:(4),(5),(6),(7),(8),(9)
其中,κc为边缘聚合的次数,cne为节点n将模型更新上传到它关联的边缘聚合器e的通信开销;cec为边缘聚合器e将边缘模型更新上传到云聚合器的通信开销。
4.根据权利要求3所述的高效通信的分层联邦学习框架的优化方法,其特征在于,通过决策X和Y来最小化边缘聚合器的数据分布和均匀分布之间的平均相对熵,目标函数如下:
Figure FDA0003832580580000025
s.t.constraints:(4),(5),(6),(7),(8),(9),
其中,ε为选出的边缘聚合器集合,即满足
Figure FDA0003832580580000026
Pu表示均匀分布,DKL(Pe||Pu)表示Pe与Pu之间的相对熵;Pn=P(Dn)表示分布式计算节点n的数据分布,Dn为节点n的训练数据集,
Figure FDA0003832580580000027
表示边缘聚合器e的数据分布,
Figure FDA0003832580580000028
为与边缘聚合器e关联的计算节点集。
5.根据权利要求4所述的高效通信的分层联邦学习框架的优化方法,其特征在于,获得最优的计算节点和边缘聚合器的关联组合,转化为以下目标函数:
Figure FDA0003832580580000029
上述的目标函数满足以下约束:
Figure FDA00038325805800000210
Figure FDA0003832580580000031
Figure FDA0003832580580000032
Figure FDA0003832580580000033
并按照以下步骤求解上述目标函数:
遍历所有待关联的分布式计算节点和尚未达到关联上限的边缘聚合器,计算
Figure FDA0003832580580000034
Figure FDA0003832580580000035
的值,ΔJne的第一项κccne代表计算节点n与边缘聚合器e之间的通信开销,第二项
Figure FDA0003832580580000036
表示将节点n关联到边缘聚合器e后平均相对熵减少量,其中
Δd=DKL(Pe+Pn||Pu)-DKL(Pe||Pu);
基于计算得到的ΔJne值,找到使得ΔJne的值最小的分布式计算节点n和边缘聚合器e的组合,然后将它们关联;
重复执行上述过程直到所有的计算节点都被关联。
6.根据权利要求5所述的高效通信的分层联邦学习框架的优化方法,其特征在于,获得最佳边缘聚合器集合,包括以下步骤:
定义
Figure FDA00038325805800000323
为给定边缘聚合器集合
Figure FDA00038325805800000324
时目标函数(13)的最优值,并且,如果
Figure FDA00038325805800000326
不满足式(14)-(17)的约束,则规定
Figure FDA00038325805800000325
定义:
Figure FDA0003832580580000037
为给定边缘聚合器集合
Figure FDA0003832580580000038
时目标函数式(12)的最优值;
随机选择一个不在当前解
Figure FDA0003832580580000039
中的候选边缘聚合器e,计算
Figure FDA00038325805800000310
的值,如果存在某个候选边缘聚合器e可以使得
Figure FDA00038325805800000311
便将e加入到当前解集合
Figure FDA00038325805800000312
随机选择一个当前解
Figure FDA00038325805800000313
中的边缘聚合器e,计算
Figure FDA00038325805800000314
的值,如果存在某个边缘聚合器e可以使得
Figure FDA00038325805800000315
便将e从当前解集合
Figure FDA00038325805800000317
中移除;
随机选择一个不在当前解
Figure FDA00038325805800000316
中的候选边缘聚合器e,以及在当前解
Figure FDA00038325805800000318
中的边缘聚合器e′,计算
Figure FDA00038325805800000319
的值,如果存在一个e和e′对可以使得
Figure FDA00038325805800000320
便将e加入到当前解集合
Figure FDA00038325805800000321
然后将e′从当前解集合
Figure FDA00038325805800000322
中移除。
7.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一所述方法的步骤。
CN202010929585.0A 2020-09-07 2020-09-07 一种高效通信的分层联邦学习框架及其优化方法和系统 Active CN112070240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010929585.0A CN112070240B (zh) 2020-09-07 2020-09-07 一种高效通信的分层联邦学习框架及其优化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010929585.0A CN112070240B (zh) 2020-09-07 2020-09-07 一种高效通信的分层联邦学习框架及其优化方法和系统

Publications (2)

Publication Number Publication Date
CN112070240A CN112070240A (zh) 2020-12-11
CN112070240B true CN112070240B (zh) 2022-10-14

Family

ID=73663974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010929585.0A Active CN112070240B (zh) 2020-09-07 2020-09-07 一种高效通信的分层联邦学习框架及其优化方法和系统

Country Status (1)

Country Link
CN (1) CN112070240B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651170B (zh) * 2020-12-14 2024-02-27 德清阿尔法创新研究院 一种纵向联邦学习场景中高效的特征贡献评估方法
CN112532746B (zh) * 2020-12-21 2021-10-26 北京邮电大学 一种云边协同感知的方法及系统
CN112769766B (zh) * 2020-12-23 2023-03-24 广东电网有限责任公司梅州供电局 基于联邦学习的电力边缘物联网数据安全聚合方法和系统
CN112804107B (zh) * 2021-01-28 2023-04-28 南京邮电大学 一种物联网设备能耗自适应控制的分层联邦学习方法
CN113010305B (zh) * 2021-02-08 2022-09-23 北京邮电大学 部署在边缘计算网络中的联邦学习系统及其学习方法
CN113723621B (zh) * 2021-04-19 2024-02-06 京东科技控股股份有限公司 一种纵向联邦学习建模方法、装置、设备及计算机介质
CN113469367B (zh) * 2021-05-25 2024-05-10 华为技术有限公司 一种联邦学习方法、装置及系统
CN113283778B (zh) * 2021-06-09 2023-08-01 哈尔滨工程大学 一种基于安全性评价的分层汇聚联邦学习方法
CN113469325B (zh) * 2021-06-09 2023-07-25 南京邮电大学 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN113504999B (zh) * 2021-08-05 2023-07-04 重庆大学 一种面向高性能分层联邦边缘学习的调度与资源分配方法
CN114118437B (zh) * 2021-09-30 2023-04-18 电子科技大学 一种面向微云中分布式机器学习的模型更新同步方法
CN113971090B (zh) * 2021-10-21 2022-09-13 中国人民解放军国防科技大学 分布式深度神经网络的分层联邦学习方法及装置
CN113992676B (zh) * 2021-10-27 2022-09-06 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN113992692B (zh) * 2021-10-27 2022-09-06 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN114357676B (zh) * 2021-12-15 2024-04-02 华南理工大学 一种针对层次化模型训练框架的聚合频率控制方法
WO2024026846A1 (zh) * 2022-08-05 2024-02-08 华为技术有限公司 一种人工智能模型处理方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110380917B (zh) * 2019-08-26 2022-01-07 深圳前海微众银行股份有限公司 联邦学习系统的控制方法、装置、终端设备及存储介质
CN111447083B (zh) * 2020-03-10 2022-10-21 中国人民解放军国防科技大学 动态带宽和不可靠网络下的联邦学习架构及其压缩算法
CN111611610B (zh) * 2020-04-12 2023-05-30 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端

Also Published As

Publication number Publication date
CN112070240A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112070240B (zh) 一种高效通信的分层联邦学习框架及其优化方法和系统
Liu et al. Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system
Ji et al. Computation offloading for edge-assisted federated learning
Huang et al. A services routing based caching scheme for cloud assisted CRNs
Zhong et al. Deep multi-agent reinforcement learning based cooperative edge caching in wireless networks
WO2023168824A1 (zh) 一种基于联邦学习的移动边缘缓存优化方法
CN113419857A (zh) 一种基于边缘数字孪生关联的联邦学习方法及系统
Qin et al. A hierarchical information acquisition system for AUV assisted internet of underwater things
Sun et al. Lightweight digital twin and federated learning with distributed incentive in air-ground 6G networks
Li et al. Learning-based delay-aware caching in wireless D2D caching networks
CN116233954A (zh) 基于联邦学习系统的分簇数据共享方法、装置及存储介质
Fan et al. Game-based task offloading and resource allocation for vehicular edge computing with edge-edge cooperation
Li et al. An optimized content caching strategy for video stream in edge-cloud environment
Tan et al. Resource allocation of fog radio access network based on deep reinforcement learning
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
CN114626298A (zh) 无人机辅助车联网中高效缓存和任务卸载的状态更新方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Peng et al. Real-time transmission optimization for edge computing in industrial cyber-physical systems
Jere et al. Federated learning in mobile edge computing: An edge-learning perspective for beyond 5G
CN116133082A (zh) 一种提高航空自组网拓扑持续时间的多跳分簇方法
CN115129387A (zh) 一种基于多策略自适应蝙蝠算法的计算卸载方法
Oualil et al. A personalized learning scheme for internet of vehicles caching
Yuan et al. Joint Multi-Ground-User Edge Caching Resource Allocation for Cache-Enabled High-Low-Altitude-Platforms Integrated Network
CN113672372A (zh) 一种基于强化学习的多边缘协同负载均衡任务调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant